論文の概要: From Prompts to Tokens: Internalizing Causal Supervision in Vision-Language Model for Multi-Image Causal Reasoning
- arxiv url: http://arxiv.org/abs/2606.11745v1
- Date: Wed, 10 Jun 2026 07:21:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.340862
- Title: From Prompts to Tokens: Internalizing Causal Supervision in Vision-Language Model for Multi-Image Causal Reasoning
- Title(参考訳): プロンプトからトークンへ:マルチイメージ因果推論のための視覚言語モデルにおける因果スーパービジョンの内部化
- Authors: Haoping Yu, Yuanxi Li, Jing Ma,
- Abstract要約: マルチイメージ入力から因果グラフを誘導することで視覚因果推論を内部化するBridgeVLMを提案する。
また,異なる粒度から微調整を行うための統合訓練インタフェースM3Sを導入する。
- 参考スコア(独自算出の注目度): 8.73831173194131
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual causal reasoning is essential for understanding and intervening in the physical world, requiring identification of causal variables from visual inputs and reasoning over intervention effects. Despite recent progress, large vision--language models (VLMs) remain brittle at such tasks, especially for interventional and counterfactual queries over multi-image inputs. Most existing explorations inject causal knowledge via textual prompts, leaving causal mechanisms external to model execution and limiting reliable control during inference. To address this problem, we propose BridgeVLM, which internalizes visual causal reasoning by inducing a causal graph from multi-image inputs and converting it into structured Causal Tokens executed by RAMP layers injected into the LLM decoder for causal message passing. We further introduce a unified training interface M3S for fine-grained causal supervision from different granularities (local/global level). BridgeVLM achieves 54.4% accuracy on intervention tasks on CausalVLBench (vs. 33.2% with prompt-level supervision), improves results on Causal3D from 43.6% to 49.0%, and substantially improves causal structure learning on CausalVLBench ($F_1$: 33.4% $\rightarrow$ 75.1%).
- Abstract(参考訳): 視覚因果推論は物理的世界での理解と介入に不可欠であり、視覚入力からの因果変数の同定と介入効果の推論を必要とする。
近年の進歩にもかかわらず、大規模な視覚言語モデル(VLM)はそのようなタスク、特にマルチイメージ入力に対する介入的および反ファクト的クエリに対して脆弱なままである。
既存のほとんどの調査では、因果的知識をテキストのプロンプトを通じて注入し、因果的メカニズムをモデル実行の外部に残し、推論中に信頼できる制御を制限する。
本稿では,マルチイメージ入力から因果グラフをインジェクトし,LLMデコーダに挿入されたRAMP層によって実行される構造化された因果トークンに変換することで,因果推論を内部化するBridgeVLMを提案する。
さらに、異なる粒度(地域・グローバルレベル)からの微粒な因果的監視のための統合トレーニングインタフェースM3Sを導入する。
ブリッジVLMは、CausalVLBenchの介入タスクの54.4%の精度(vs. 33.2%は迅速なレベルの監督)、Causal3Dの結果を43.6%から49.0%に改善し、CausalVLBench(F_1$: 33.4%$\rightarrow$ 75.1%)の因果構造学習を大幅に改善する。
関連論文リスト
- CausalGaze: Unveiling Hallucinations via Counterfactual Graph Intervention in Large Language Models [20.20916393164348]
構造因果モデル(SCM)に基づく新しい幻覚検出フレームワークCausalGazeを紹介する。
実験では、CousalGazeの有効性、特に最先端のベースラインと比較して、TrathfulQAデータセット上でのAUROCの5.2%以上の改善が示されている。
論文 参考訳(メタデータ) (2026-04-13T07:09:33Z) - Vision-aligned Latent Reasoning for Multi-modal Large Language Model [82.26044667101011]
VaLR(Vision-aligned Latent Reasoning)は、思考の連鎖の推論ステップの前に動的に視覚対応の潜在トークンを生成するフレームワークである。
VaLRは、MLLMの中間埋め込みを視覚エンコーダのものと整合させることにより、推論中の視覚的知識の保存を訓練する。
論文 参考訳(メタデータ) (2026-02-04T12:04:02Z) - LogicGaze: Benchmarking Causal Consistency in Visual Narratives via Counterfactual Verification [41.99844472131922]
LogicGazeは視覚入力に対して逐次因果連鎖を検証できるかどうかを精査するために設計された新しいベンチマークフレームワークである。
我々の三部評価プロトコルは、Qwen2.5-VL-72Bのような最先端のVLMの重大な脆弱性を明らかにする。
LogicGazeは堅牢で信頼性の高いマルチモーダル推論を提唱しており、すべてのリソースは匿名リポジトリで公開されている。
論文 参考訳(メタデータ) (2026-01-30T20:28:01Z) - From Sight to Insight: Improving Visual Reasoning Capabilities of Multimodal Models via Reinforcement Learning [12.548754243700657]
マルチモーダルな大言語モデル(MLLM)は、視覚情報の統合に欠ける推論を生成する。
このようなタスクにおいて視覚的知覚が重要なボトルネックであることを示し、クロード3.5では26.7%、クロード3.7では23.6%の利得を得た。
我々は,イメージ理解,思考ステップ,回答精度など,異なる推論的側面を対象とする6つの報酬関数を設計・評価する。
Qwen-2.5-VL-7Bの実験では、ベースモデルよりも5.56%改善されており、ドメイン内設定とドメイン外設定の両方で一貫して改善されている。
論文 参考訳(メタデータ) (2026-01-01T05:19:28Z) - What's Missing in Vision-Language Models? Probing Their Struggles with Causal Order Reasoning [26.671128120554457]
因果推論は、複雑な高レベルの推論タスクを解決するのに基本である。
既存のベンチマークには、しばしば推論の質問が混在している。
VQA-CausalとVCR-Causalを導入し,因果推論能力の分離と厳密な評価を行った。
論文 参考訳(メタデータ) (2025-06-01T07:17:46Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - Treble Counterfactual VLMs: A Causal Approach to Hallucination [6.3952983618258665]
VisionLanguage Models (VLM) には、画像キャプション、視覚的質問応答、推論といった高度なマルチモーダルタスクがある。
視覚的文脈やプロンプトと矛盾しない幻覚出力をしばしば生成する。
既存の研究では、幻覚は統計的バイアス、言語優先、偏見のある特徴学習と結びついているが、構造的な因果理解は欠如している。
論文 参考訳(メタデータ) (2025-03-08T11:13:05Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Cross-Modal Causal Relational Reasoning for Event-Level Visual Question
Answering [134.91774666260338]
既存の視覚的質問応答法は、しばしばクロスモーダルなスプリアス相関と過度に単純化されたイベントレベルの推論プロセスに悩まされる。
本稿では,イベントレベルの視覚的質問応答の課題に対処するために,モーダルな因果関係推論のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-26T04:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。