論文の概要: Optical Reasoning: Rethinking Images as an Expressive Reasoning Medium Beyond Text
- arxiv url: http://arxiv.org/abs/2606.09585v1
- Date: Mon, 08 Jun 2026 14:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.281549
- Title: Optical Reasoning: Rethinking Images as an Expressive Reasoning Medium Beyond Text
- Title(参考訳): 光推論:画像はテキストを超えた表現力のある推論媒体として再考
- Authors: Yutong Bian, Dongjie Cheng, Heming Xia, Yongqi Li, Wenjie Li,
- Abstract要約: CoT(Chain-of-Thought)は、LLM(Large Language Model)の性能を改善し、MLLM(Multimodal Large Language Model)に拡張した。
本稿では,画像を独立した推論媒体として扱う光学的推論を提案する。
- 参考スコア(独自算出の注目度): 15.504855816862587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) improves the performance of Large Language Models (LLMs) and has been extended to Multimodal Large Language Models (MLLMs). More recent work further moves from text-based multimodal reasoning toward interleaved-modal reasoning, where intermediate steps can incorporate both textual rationales and visual evidence. In this work, we propose a bolder and more ambitious idea: could images alone serve as the reasoning medium for both language and multimodal tasks? To explore this, we propose optical reasoning, which treats images as a standalone reasoning medium. We instantiate this concept with two variants: typographic-based optical reasoning, which optimizes visual layouts for compact rationale rendering, and graphical-based optical reasoning, which composes text and graphical elements into structured visual rationales. Across mathematical, scientific, and interleaved-modal reasoning benchmarks, optical reasoning can match or even exceed traditional text reasoning while reducing reasoning tokens by an average of 28.57% on language tasks and 16% on multimodal tasks, achieving 1.96 times the token efficiency of text reasoning. These results show that images can effectively and efficiently encode rationales while providing a unified visual canvas for reasoning.
- Abstract(参考訳): CoT(Chain-of-Thought)は、LLM(Large Language Models)の性能を改善し、MLLM(Multimodal Large Language Models)に拡張した。
より最近の研究は、テキストベースのマルチモーダル推論からインターリーブド・モーダル推論へとさらに移行し、中間段階はテキストの有理性と視覚的証拠の両方を組み込むことができる。
本研究では、画像だけで言語とマルチモーダルの両方のタスクの推論媒体として機能できるかという大胆で野心的な考えを提案する。
そこで本研究では,画像を独立した推論媒体として扱う光学推論を提案する。
我々はこの概念を、コンパクトな論理的レンダリングのために視覚的レイアウトを最適化するタイポグラフィベースの光推論と、テキストとグラフィカル要素を構造化された視覚的論理に構成するグラフィカルベースの光推論の2つの変種でインスタンス化する。
数学的、科学的、インターリーブされたモーダル推論のベンチマーク全体において、光学的推論は従来のテキスト推論と一致するか、あるいは超える可能性があるが、推論トークンを言語タスクで平均28.57%、マルチモーダルタスクで16%減らし、テキスト推論のトークン効率の1.96倍に達する。
これらの結果から,画像は推論のための統一的な視覚キャンバスを提供しながら,合理性を効果的かつ効率的に符号化できることが示唆された。
関連論文リスト
- Look on Demand: A Cognitive Scheduling Framework for Visual Evidence Acquisition in Multimodal Reasoning [82.86343313807158]
我々は、視覚的証拠が推論プロセスにどのように、いつ導入されるかが中心的な課題であると主張している。
この知見により,言語モデルが推論プロセスを制御するマルチモーダル推論フレームワークCSMRを提案する。
論文 参考訳(メタデータ) (2026-05-27T08:43:13Z) - UniVLR: Unifying Text and Vision in Visual Latent Reasoning for Multimodal LLMs [36.74593429466411]
テキスト推論と補助的視覚証拠を共有視覚ワークスペースとして扱う統合視覚潜在推論フレームワークを提案する。
我々は,UniVLRが生成した推論トークンをはるかに少なく使用しながら,従来の視覚的潜在推論手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2026-05-12T09:40:03Z) - Walk the Talk: Bridging the Reasoning-Action Gap for Thinking with Images via Multimodal Agentic Policy Optimization [89.68681087743876]
MLLM(Multimodal Large Language Models)は,マルチターン推論において視覚ツールを積極的に呼び出すことによって,イメージで考えるモデルにインセンティブを与えている。
結果に基づく報酬を頼りにする一般的な強化学習の実践は、テキストの妥当性が経営幹部の失敗を隠蔽するという事実を無視します。
マルチモーダルエージェントポリシー最適化(MAPO)を導入し、テキスト推論とモデルが生成する視覚行動のギャップを埋める。
論文 参考訳(メタデータ) (2026-04-08T07:48:07Z) - Thinking with Comics: Enhancing Multimodal Reasoning through Structured Visual Storytelling [25.305621689469444]
コミックによる思考は、漫画を画像とビデオの間に位置する高い情報密度の媒体として利用する視覚的推論パラダイムである。
コミックは、時間構造、埋め込みテキスト、物語コヒーレンスを保存し、推論コストを著しく低減する。
論文 参考訳(メタデータ) (2026-02-02T18:43:57Z) - Monet: Reasoning in Latent Visual Space Beyond Images and Language [55.424507246294326]
視覚的推論を推し進める上で有効なパラダイムとして「画像で考える」が登場している。
既存の方法は、人間のような抽象的な視覚的思考に欠ける。
Monetは、マルチモーダルな大規模言語モデルを潜在視覚空間内で直接推論できるトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-11-26T13:46:39Z) - ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning [76.95203056566191]
マルチモーダル推論は言語と視覚の反復的調整を必要とするが、何が意味あるインターリーブド思考の連鎖を構成するかは定かではない。
我々はThinkMorphを開発した。ThinkMorphは、視覚的エンゲージメントの異なるタスクにまたがる、約24Kの高品質なインターリーブ付き推論トレースに基づいて微調整された統一モデルだ。
ThinkMorphは、一貫性のある言語論理を維持しながら、視覚的コンテンツを具体的に操作する、プログレッシブなテキストイメージ推論ステップを生成することを学ぶ。
論文 参考訳(メタデータ) (2025-10-30T17:51:38Z) - Visualizing Thought: Conceptual Diagrams Enable Robust Planning in LMMs [59.66595230543127]
概念図はメンタルモデルを外部化し、関係のない詳細を抽象化して、エンティティの相互作用を効率的に捉える。
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、主にテキストを通して推論される。
我々は、LMMが複数の自己生成概念図を通した推論を可能にする、一般化可能なフレームワークであるVisual Thinkingを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。