論文の概要: Look Light, Think Heavy: What Multimodal Chain-of-Thought Reasoning Can and Cannot Do
- arxiv url: http://arxiv.org/abs/2606.22565v1
- Date: Sun, 21 Jun 2026 15:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:39:03.607033
- Title: Look Light, Think Heavy: What Multimodal Chain-of-Thought Reasoning Can and Cannot Do
- Title(参考訳): マルチモーダル・チェーン・オブ・サード(Multimodal Chain-of-Thought Reasoning)ができることとできないこと
- Authors: Zhuoran Jin, Kejian Zhu, Hongbang Yuan, Yupu Hao, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao,
- Abstract要約: CoT(Chain-of-Thought)は,大規模言語モデルにおける推論能力向上のための標準手法となっている。
本稿では,マルチモーダルCoTに何ができるか,なぜ不足するのかを系統的に検討する。
- 参考スコア(独自算出の注目度): 37.70222730556387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) has become a standard method for improving reasoning capabilities in large language models (LLMs) by eliciting step-by-step thinking, but its effectiveness in multimodal tasks remains unclear. In this paper, we aim to systematically investigate the key question: What can multimodal Chain-of-Thought reasoning do, and where and why does it fall short? To this end, we evaluate 12 multimodal tasks across perception and reasoning categories using both 14 non-reasoning models and 8 reasoning models. Our analysis reveals several important findings: (1) CoT is not a free lunch and should be used selectively depending on the specific requirements of each task. For perception tasks, CoT can lead to undesirable side effects, such as reduced performance in visual grounding and object counting. In contrast, it proves effective for reasoning tasks involving mathematical, scientific, and multi-image reasoning; (2) Compared to original models, existing open-source multimodal reasoning models often yield only marginal overall improvements, possibly due to an overemphasis on mathematical reasoning at the expense of broader capabilities; (3) Visual reasoning remains a key bottleneck for current multimodal CoT, as models exhibit a Look Light, Think Heavy pattern where verbal reflection rises and falls during reasoning, whereas visual reflection consistently diminishes. These findings suggest that while multimodal CoT handles verbal reflection relatively well, it lacks the ability to maintain deep visual introspection throughout the reasoning process.
- Abstract(参考訳): CoT(Chain-of-Thought)は、ステップバイステップ思考による大規模言語モデル(LLM)の推論能力向上の標準手法となっているが、マルチモーダルタスクにおけるその有効性はいまだ不明である。
本稿では,マルチモーダル・チェーン・オブ・ソート・推論に何ができるのか,なぜ不足するのか,という問を体系的に検討することを目的とする。
そこで本研究では,14の非推論モデルと8の推論モデルを用いて,知覚と推論のカテゴリにわたる12のマルチモーダルタスクを評価する。
分析の結果,(1)CoTはフリーランチではなく,各タスクの要求に応じて選択的に使用すべきであることがわかった。
知覚タスクでは、CoTは視覚的グラウンドリングのパフォーマンスの低下やオブジェクトカウントなど、望ましくない副作用を引き起こす可能性がある。
対照的に、これは数学的、科学的、マルチイメージ推論に関わるタスクの推論に有効であることが証明されている; (2) オリジナルのモデルと比較すると、既存のオープンソースマルチモーダル推論モデルは、より広範な能力を犠牲にして数学的推論を過大評価しているため、限界的な全体的な改善しか得られない。
これらの結果から,マルチモーダル CoT は口頭反射を比較的よく処理するが,推論過程を通して深い視覚的内観を維持する能力は欠如していることが示唆された。
関連論文リスト
- Walk the Talk: Bridging the Reasoning-Action Gap for Thinking with Images via Multimodal Agentic Policy Optimization [89.68681087743876]
MLLM(Multimodal Large Language Models)は,マルチターン推論において視覚ツールを積極的に呼び出すことによって,イメージで考えるモデルにインセンティブを与えている。
結果に基づく報酬を頼りにする一般的な強化学習の実践は、テキストの妥当性が経営幹部の失敗を隠蔽するという事実を無視します。
マルチモーダルエージェントポリシー最適化(MAPO)を導入し、テキスト推論とモデルが生成する視覚行動のギャップを埋める。
論文 参考訳(メタデータ) (2026-04-08T07:48:07Z) - Deep But Reliable: Advancing Multi-turn Reasoning for Thinking with Images [53.373427633330515]
DRIMは,マルチモーダルCoTの画像について考える際に,深層かつ信頼性の高いマルチターン推論を可能にするモデルである。
高精細画像データセットに基づいて,高精細かつ検証可能な視覚的問合せ対を構築する。
SFTの段階では,ツールトラジェクトリをコールドスタートデータとして収集し,マルチターン推論パターンを導出する。
RLの段階では、冗長性を考慮したポリシー最適化を導入し、自己反射的推論パターンを開発するためのモデルにインセンティブを与える。
論文 参考訳(メタデータ) (2025-12-19T07:44:43Z) - ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning [76.95203056566191]
マルチモーダル推論は言語と視覚の反復的調整を必要とするが、何が意味あるインターリーブド思考の連鎖を構成するかは定かではない。
我々はThinkMorphを開発した。ThinkMorphは、視覚的エンゲージメントの異なるタスクにまたがる、約24Kの高品質なインターリーブ付き推論トレースに基づいて微調整された統一モデルだ。
ThinkMorphは、一貫性のある言語論理を維持しながら、視覚的コンテンツを具体的に操作する、プログレッシブなテキストイメージ推論ステップを生成することを学ぶ。
論文 参考訳(メタデータ) (2025-10-30T17:51:38Z) - BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception [67.89135437537179]
我々は視覚中心の推論ベンチマークであるBLINK-Twiceを紹介した。
外部の知識に頼るのではなく、私たちのタスクは視覚的コンテンツのみから推論するモデルを必要とします。
事前の知覚ベンチマークと比較すると、浅い知覚を超越し、きめ細かい観察と分析的推論を必要とする。
論文 参考訳(メタデータ) (2025-10-10T13:14:13Z) - GThinker: Towards General Multimodal Reasoning via Cue-Guided Rethinking [35.14983424309319]
GThinkerは、一般的なシナリオ、数学、科学にまたがるマルチモーダル推論に優れた新しい推論MLLMである。
GThinker氏はCue-Rethinkingを紹介した。Cue-Rethinkingは視覚的手がかりを推論し、矛盾を解決するために反復的にこれらの手がかりを再解釈する柔軟な推論パターンである。
トレーニングを支援するため,GThinker-11Kの構築を行った。
論文 参考訳(メタデータ) (2025-06-01T16:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。