論文の概要: Vision-Reasoning-Guided Occlusion Removal from Light Fields
- arxiv url: http://arxiv.org/abs/2606.19985v1
- Date: Thu, 18 Jun 2026 09:24:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.763229
- Title: Vision-Reasoning-Guided Occlusion Removal from Light Fields
- Title(参考訳): 光界からの視覚共鳴誘導オクルージョン除去
- Authors: Mohamed Youssef, Oliver Bimber,
- Abstract要約: オクルージョン・ロバストシーンの回復は、計算画像における大きな課題である。
本稿では,視覚刺激による光界遮断除去フレームワークを提案する。
劣化した構造物を復元する前の条件付きセマンティックは、観測された測定によって導かれる細部を復元する。
- 参考スコア(独自算出の注目度): 1.1458853556386797
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Occlusion-robust scene recovery remains a major challenge in computational imaging, particularly in natural environments where dense foreground vegetation severely limits visibility. We propose a vision-reasoning-guided light field occlusion removal framework that combines the visibility recovery capability of light field integration (LFI) with the semantic reasoning capacity of vision-language models (VLMs). Multi-view observations are first integrated via LFI to suppress foreground occlusions and produce an initial visibility-enhanced representation. A VLM is then incorporated as a conditional semantic prior to restore degraded structures and recover fine details, guided by the observed measurements. To improve recovery consistency and reduce hallucination artifacts, we introduce a multi-sample fusion strategy that aggregates multiple generated hypotheses into a unified estimate. Experimental results on synthetic and real-world datasets demonstrate state-of-the-art performance, achieving the highest average SSIM across four synthetic light field benchmark scenes (4-Syn) and strong generalization across structured and unstructured acquisition settings. These results highlight the effectiveness of combining physical imaging constraints with vision-language reasoning for robust perception under severe occlusion, with applicability to search-and-rescue and exploratory robotic navigation.
- Abstract(参考訳): 密集した前景の植生が視界を著しく制限する自然環境において、閉塞・腐食シーンの回復は、特に計算画像において大きな課題である。
本稿では,光場統合(LFI)の可視性回復能力と視覚言語モデル(VLM)のセマンティック推論能力を組み合わせた,視覚推論誘導光場閉塞除去フレームワークを提案する。
マルチビュー観測は、まずLFIを介して統合され、前景の閉塞を抑え、最初の可視性向上表現を生成する。
VLMは、劣化した構造を復元し、観察された測定によって導かれる細部を復元する前に条件セマンティクスとして組み込まれる。
回復の整合性を向上し,幻覚のアーチファクトを減らすために,複数の生成仮説を統一的な推定に集約するマルチサンプル融合戦略を導入する。
4つの合成光場ベンチマークシーン(4-Syn)で最高の平均SSIMを達成し、構造化および非構造化の取得設定で強力な一般化を実現した。
これらの結果から, 重度閉塞下での頑健な知覚に対する視覚言語推論と物理画像制約の併用が, 探索・救助・探索ロボットナビゲーションに応用可能であることが示唆された。
関連論文リスト
- Multimodal Object Detection Under Sparse Forest-Canopy Occlusion [0.15469452301122175]
本稿では,3つの補完的アプローチを統合するマルチモーダルな概念実証パイプラインを提案する。
YOLOv5検出器は、Teledyne FLIR熱データセットに基づいて微調整され、熱画像と融解画像に基づいて評価される。
その結果, 地上のLiDAR構成は, 物体レベルの検出に限界があることがわかった。
論文 参考訳(メタデータ) (2026-05-14T18:39:51Z) - Predictive Regularization Against Visual Representation Degradation in Multimodal Large Language Models [84.94288033791346]
我々は,MLLMにおける視覚的表現の劣化という,広範にわたる課題を明らかにするために,詳細な診断分析を行う。
我々は,この現象を,単一のテキスト生成目標によって引き起こされる視覚的犠牲とみなし,そのモデルが解答生成の最適化のためにその視覚的忠実度を損なう。
本研究では,初期視覚特性を予測するために,劣化した中間特徴を強制的に予測し,MLLMの内部表現に固有の視覚特性を維持するための予測正則化を提案する。
論文 参考訳(メタデータ) (2026-03-21T13:10:37Z) - RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations [12.753436440584409]
VisRAG(Retrieval-Augmented Generation)は、視覚言語モデル(VLM)を活用して、関連する視覚文書を共同で検索し、マルチモーダルな証拠に基づいて根拠付き回答を生成する。
既存のVisRAGモデルは、視覚入力がぼやけ、ノイズ、低光、シャドーなどの歪みに悩まされるときに性能が低下する。
因果誘導型デュアルパスフレームワークであるRobustVisRAGを導入し,効率とゼロショットの一般化を保ちながら,VisRAGの堅牢性を向上させる。
論文 参考訳(メタデータ) (2026-02-25T15:27:57Z) - CrystaL: Spontaneous Emergence of Visual Latents in MLLMs [55.34169914483764]
CrystaL(Crystallized Latent Reasoning)は,静止画像と劣化画像を処理するための2つの経路を持つ単一ステージフレームワークである。
CrystaLは2つの経路にまたがる注意パターンと予測分布を明確に調整することで、潜在表現をタスク関連視覚意味論に結晶化する。
知覚集約ベンチマークの実験では、CrystaLは最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-24T15:01:30Z) - Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding [54.05243949024302]
既存の堅牢なMLLMは、視覚エンコーダの一般化にのみ焦点をあてた暗黙のトレーニング/適応に依存している。
本稿では,構造的推論連鎖による視覚的劣化を明示的にモデル化する新しいフレームワークであるRobust-R1を提案する。
提案手法は, (i) 劣化を考慮した推論基盤の微調整, (ii) 劣化パラメータを正確に知覚するための報酬駆動アライメント, (iii) 劣化強度に適応した動的推論深度スケーリングの2つを統合した。
論文 参考訳(メタデータ) (2025-12-19T12:56:17Z) - RefLSM: Linearized Structural-Prior Reflectance Model for Medical Image Segmentation and Bias-Field Correction [10.716406019360441]
医用画像セグメンテーションのための新しい変動反射型レベルセットモデル(RefLSM)を提案する。
RefLSMはRetinexにインスパイアされた反射率分解をセグメンテーションフレームワークに明示的に統合する。
RefLSMは,最先端レベル設定法と比較して,セグメンテーション精度,ロバスト性,計算効率が優れていることを示す。
論文 参考訳(メタデータ) (2025-12-08T06:06:29Z) - INSIGHT: An Interpretable Neural Vision-Language Framework for Reasoning of Generative Artifacts [0.0]
現在の法医学システムは、現実世界の条件下で急速に低下している。
ほとんどの検出器は不透明物として機能し、なぜ画像が合成物としてフラグ付けされるのかについての知見はほとんど得られない。
本稿では,AI生成画像のロバスト検出と透過的説明のための統合フレームワークであるINSIGHTを紹介する。
論文 参考訳(メタデータ) (2025-11-27T11:43:50Z) - LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - Unveiling the Lack of LVLM Robustness to Fundamental Visual Variations: Why and Path Forward [1.7971686967440696]
V$2$R-Benchは、LVLMの視覚変化ロバスト性を評価するためのベンチマークフレームワークである。
本研究では,複雑な視覚言語タスクに優れた高度なモデルが,オブジェクト認識などの単純なタスクでは著しく性能が劣っていることを示す。
これらの脆弱性は、パイプラインアーキテクチャにおけるエラーの蓄積と、マルチモーダルアライメントの不十分に起因する。
論文 参考訳(メタデータ) (2025-04-23T14:01:32Z) - Generalizable Non-Line-of-Sight Imaging with Learnable Physical Priors [52.195637608631955]
非視線画像(NLOS)は、その潜在的な応用により注目されている。
既存のNLOS再構成アプローチは、経験的物理的前提に依存して制約される。
本稿では,Learningable Path Compensation(LPC)とAdaptive Phasor Field(APF)の2つの主要な設計を含む,学習に基づく新しいソリューションを提案する。
論文 参考訳(メタデータ) (2024-09-21T04:39:45Z) - Incorporating Degradation Estimation in Light Field Spatial Super-Resolution [54.603510192725786]
本稿では,多種多様な劣化型を扱うために,明示的な劣化推定を組み込んだ効果的なブラインド光場SR法LF-DESTを提案する。
ベンチマークデータセットに対する広範な実験を行い、光場SRにおける様々な劣化シナリオにおいてLF-DESTが優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2024-05-11T13:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。