論文の概要: TVI-CoT: Text-Visual Interleaved Chain-of-Thought Reasoning for Multimodal Understanding
- arxiv url: http://arxiv.org/abs/2606.08464v1
- Date: Sun, 07 Jun 2026 05:58:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.120366
- Title: TVI-CoT: Text-Visual Interleaved Chain-of-Thought Reasoning for Multimodal Understanding
- Title(参考訳): TVI-CoT:マルチモーダル理解のためのテキスト・ビジュアル・インターリーブド・チェーン・オブ・ソート推論
- Authors: Lianyu Hu, Xiaoyu Ma, Zeqin Liao, Yang Liu,
- Abstract要約: 思考の連鎖(CoT)推論は、大規模言語モデルにおける問題解決の強化に有効であることが証明されている。
既存のCoTアプローチは基本的な制限に悩まされており、完全にテキストで推論を行う。
テキスト推論と視覚的特徴アクセスの明示的なインターリーブを実現するためのテキスト・ビジュアル・インターリーブド・チェーン・オブ・ワット(TVI-CoT)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.402346011516423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) reasoning has proven effective for enhancing problem-solving in large language models. However, when applied to multimodal LLMs (MLLMs), existing CoT approaches suffer from a fundamental limitation: they perform reasoning entirely in text without accessing visual features during the reasoning process. After initial visual encoding, image information becomes inaccessible, forcing models to reason based solely on whatever was captured in the initial description, which forms a `vision-blind reasoning' paradigm that limits fine-grained visual extraction, error verification, and adaptive attention. We propose Text-Visual Interleaved Chain-of-Thought (TVI-CoT), a framework that enables explicit interleaving of textual reasoning and visual feature access through learnable control tokens <THINK>, <LOOK> and <ANSWER>. These tokens allow dynamic switching between reasoning and visual grounding, attending to relevant image regions conditioned on the evolving reasoning state. Experiments on eight benchmarks demonstrate state-of-the-art results among MLLM-based CoT methods and notable performance boost compared to the baseline: +6.1% on MMMU, +3.8% on MathVerse, +3.4% on MathVista, and +3.4% on ScienceQA. Code is available at https://github.com/hulianyuyy/TVI-CoT.
- Abstract(参考訳): 思考の連鎖(CoT)推論は、大規模言語モデルにおける問題解決の強化に有効であることが証明されている。
しかし、MLLM(Multimodal LLM)に適用する場合、既存のCoTアプローチは、推論プロセス中に視覚的特徴にアクセスすることなく、完全にテキストで推論を行うという根本的な制限を受ける。
最初の視覚的エンコーディングの後、画像情報はアクセス不能になり、モデルに初期記述で得られたもののみに基づいて推論を強制する。
学習可能な制御トークン<THINK>,<LOOK>,<ANSWER>によるテキスト推論と視覚的特徴アクセスの明示的なインターリーブを可能にするフレームワークであるText-Visual Interleaved Chain-of-Thought (TVI-CoT)を提案する。
これらのトークンは推論と視覚的接地を動的に切り替えることを可能にし、進化する推論状態に条件付けられた関連する画像領域に対応する。
8つのベンチマーク実験では、MLLMベースのCoT手法の最先端結果と、MMMUの+6.1%、MathVerseの+3.8%、MathVistaの+3.4%、ScienceQAの+3.4%の顕著なパフォーマンス向上が示されている。
コードはhttps://github.com/hulianyuyy/TVI-CoT.comで入手できる。
関連論文リスト
- Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning [23.364264811510598]
CoT(Chain-of-Thought)の促進により、LLM(Large Language Models)の推論能力の解放に成功した。
Render-of-Thought (RoT) は、画像にテキストステップを描画することで推論チェーンを再構築する最初のフレームワークである。
提案手法は, 明示的なCoTに比べて3~4倍のトークン圧縮と相当な推論高速化を実現する。
論文 参考訳(メタデータ) (2026-01-21T08:09:25Z) - Rethinking Chain-of-Thought Reasoning for Videos [19.579424881079447]
思考の連鎖(CoT)推論は自然言語処理における複雑なタスクの解決に成功している。
最近のマルチモーダル大言語モデル(MLLM)は、このパラダイムをビデオ推論に拡張している。
経験的観察によって動機づけられた我々は、簡潔な推論と少ない視覚的トークンの組み合わせは、効果的なビデオ推論に十分である、という仮説を立てた。
論文 参考訳(メタデータ) (2025-12-10T13:05:55Z) - Monet: Reasoning in Latent Visual Space Beyond Images and Language [55.424507246294326]
視覚的推論を推し進める上で有効なパラダイムとして「画像で考える」が登場している。
既存の方法は、人間のような抽象的な視覚的思考に欠ける。
Monetは、マルチモーダルな大規模言語モデルを潜在視覚空間内で直接推論できるトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-11-26T13:46:39Z) - When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought [118.71264263478083]
MIRAは,中間画像の生成が推論の成功に不可欠であるシナリオにおいて,モデルを評価するために設計された新しいベンチマークである。
546のマルチモーダル問題を含み、中間画像と最終回答が注釈付きである。
論文 参考訳(メタデータ) (2025-11-04T18:00:51Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。