論文の概要: Position: The Systemic Lack of Agency in Visual Reasoning
- arxiv url: http://arxiv.org/abs/2606.14795v1
- Date: Thu, 11 Jun 2026 14:13:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.161927
- Title: Position: The Systemic Lack of Agency in Visual Reasoning
- Title(参考訳): 視覚的推論におけるエージェントの体系的欠如
- Authors: Yizhao Huang, Haoyang Chen, Shiqin Wang, Pohsun Huang, Jiayuan Li, Haoyuan Du, Yandong Shi, Zheng Wang, Zhixiang Wang,
- Abstract要約: 暗黙の推論(英: Implicit reasoning)とは、隠された視覚的証拠を自律的に発見・活用する能力である。
この能力は人間の視覚的理解と日々の推論の基盤となる。
この容量を測定するために、Visual Implicit Reasoning Diagnosing Benchmark (V-IRD)を導入する。
- 参考スコア(独自算出の注目度): 16.497809678344566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper argues that a systemic lack of Agency constrains the implicit reasoning capabilities of current Vision-Language Models (VLMs). Implicit reasoning refers to the ability to autonomously discover and utilize hidden visual evidence to bridge information gaps, rather than merely relying on explicitly specified targets. This capacity underlies human visual understanding and everyday reasoning. We argue that this limitation arises from a tendency to approach visual reasoning primarily as passive semantic retrieval, rather than as active, situated reasoning that depends on autonomous visual exploration. As a result, most existing benchmarks primarily assess Passive Capacity, leaving this aspect of reasoning largely unmeasured. To address this gap, we introduce the Visual Implicit Reasoning Diagnosing Benchmark (V-IRD), which targets this missing quadrant by requiring models to derive answers strictly through autonomous visual analysis. Our results show that, despite strong retrieval abilities, prominent VLMs struggle to utilize reference objects and to attend to visual evidence that requires self-directed inquiry. Simply put, strong semantic recognition does not equate to active visual exploration, revealing a critical gap in current VLMs. More information can be found at https://haoychen.github.io/Implicit-Reasoning/
- Abstract(参考訳): 本稿では,現状の視覚言語モデル(VLM)の暗黙的推論能力に,エージェンシーの体系的欠如が制約があることを論じる。
暗黙の推論(英語: Implicit reasoning)とは、隠された視覚的証拠を自律的に発見・活用して情報ギャップを埋める能力である。
この能力は人間の視覚的理解と日々の推論の基盤となる。
この制限は、自律的な視覚探索に依存する活発な位置的推論よりも、主に受動的意味検索として視覚的推論にアプローチする傾向に起因している、と我々は主張する。
その結果、既存のベンチマークは主にパッシブ・キャパシティを評価しており、推論のこの側面はほとんど測定されていない。
このギャップに対処するために、自律的な視覚分析を通じて、モデルに厳密な答えを導出することを要求することにより、この欠落した4分の1をターゲットにしたVisual Implicit Reasoning Diagnosing Benchmark(V-IRD)を導入する。
本研究は, 検索能力が強いにもかかわらず, VLMは参照対象の活用に苦慮し, 自己指揮的調査を必要とする視覚的証拠の提出に苦慮していることを示す。
簡単に言えば、強い意味認識は活発な視覚探索と等価ではなく、現在のVLMにおいて重要なギャップを露呈している。
詳細はhttps://haoychen.github.io/Implicit-Reasoning/にある。
関連論文リスト
- Cognitive Pivot Points and Visual Anchoring: Unveiling and Rectifying Hallucinations in Multimodal Reasoning Models [65.57985131861399]
幻覚は、しばしば高いエントロピー状態を示す認知的分岐点と強く相関している。
本稿では,視覚的に認識可能な推論機能の内部化を目的とした,軽量で総合的なトレーニングパラダイムであるV-STARを提案する。
論文 参考訳(メタデータ) (2026-04-11T13:59:05Z) - Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs [60.93949629734977]
モデル生成論理における幻覚を軽減するために,視覚コントラスト型自己学習共振器(VC-STaR)を提案する。
多様なVQAデータセットを収集し、マルチモーダルな類似性に応じてコントラストペアをキュレートし、VC-STaRを用いて合理性を生成する。
大規模な実験によると、VC-STaRは既存の自己改善アプローチを上回るだけでなく、SoTA視覚推論データセットで微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2026-03-03T03:18:31Z) - Diagnosing Causal Reasoning in Vision-Language Models via Structured Relevance Graphs [18.83755844366017]
VLCG(Vision-Language Causal Graphs)は、因果関係のあるオブジェクト、属性、関係、シーングラウンドの仮定を明示的にエンコードする、構造化されたクエリ条件付き表現である。
本稿では, 因果属性, 因果推論, 質問応答のタスクを含む診断ベンチマークである ViLCaR と, グラフ対応評価指標について述べる。
現状のLVLM実験では、構造化された関連情報を注入することで、ゼロショットや標準のインコンテキスト学習と比較して、帰属や推論が大幅に向上することが示された。
論文 参考訳(メタデータ) (2026-02-24T13:20:07Z) - VRIQ: Benchmarking and Analyzing Visual-Reasoning IQ of VLMs [3.8552182839941884]
視覚言語モデル(VLM)の視覚的推論能力の評価と解析を目的とした新しいベンチマークであるVRIQを紹介する。
抽象的なパズルでは、性能は平均28%の精度でほぼランダムに保たれ、一方、自然タスクは45%の精度でより優れているが、それでも弱い結果が得られる。
分析の結果,障害の約56%は知覚単独で発生し,43%は知覚と推論の両方から発生し,1%は推論単独から発生していることがわかった。
論文 参考訳(メタデータ) (2026-02-05T07:07:27Z) - BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception [67.89135437537179]
我々は視覚中心の推論ベンチマークであるBLINK-Twiceを紹介した。
外部の知識に頼るのではなく、私たちのタスクは視覚的コンテンツのみから推論するモデルを必要とします。
事前の知覚ベンチマークと比較すると、浅い知覚を超越し、きめ細かい観察と分析的推論を必要とする。
論文 参考訳(メタデータ) (2025-10-10T13:14:13Z) - When Thinking Drifts: Evidential Grounding for Robust Video Reasoning [68.75730050161219]
CoT(Chain-of-Thought)メカニズムは、テキストベースのタスクにおける推論を強化した。
CoTはビデオ推論のパフォーマンスを劣化させ、冗長だが内部のモノローグを誤解させる。
ビジュアルエビデンス・リワード(Visual Evidence Reward、VER)は、ビジュアルエビデンスに根ざした推論トレースの生成に明示的に報いる強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-10-07T16:03:33Z) - What's Missing in Vision-Language Models? Probing Their Struggles with Causal Order Reasoning [26.671128120554457]
因果推論は、複雑な高レベルの推論タスクを解決するのに基本である。
既存のベンチマークには、しばしば推論の質問が混在している。
VQA-CausalとVCR-Causalを導入し,因果推論能力の分離と厳密な評価を行った。
論文 参考訳(メタデータ) (2025-06-01T07:17:46Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Interpretable Visual Question Answering via Reasoning Supervision [4.76359068115052]
トランスフォーマーベースのアーキテクチャは、最近Visual Question Answering (VQA)タスクで顕著なパフォーマンスを示している。
本稿では,視覚的質問応答のための新しいアーキテクチャを提案する。
提案手法がモデルの視覚知覚能力を向上し,性能向上につながることを定量的かつ定性的に示す。
論文 参考訳(メタデータ) (2023-09-07T14:12:31Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。