論文の概要: SVoT: State-aware Visualization-of-Thought for Spatial Reasoning via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.11770v1
- Date: Wed, 10 Jun 2026 07:54:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.351522
- Title: SVoT: State-aware Visualization-of-Thought for Spatial Reasoning via Reinforcement Learning
- Title(参考訳): SVoT:強化学習による空間推論のための状態認識可視化
- Authors: Chao Lei, Yanbei Jiang, Markus Hiller, Zhijian Zhou, Xunye Tian, Krista A. Ehinger, Nir Lipovetzky,
- Abstract要約: 本研究では,中間状態と可視化情報を生成する強化学習フレームワークであるState-Aware Visualization-of-Thought (SVoT)を提案する。
SVoTは遷移推論チェーンを生成プロセスに統合し、モデルがアクションの前提条件と効果を検証できるようにする。
我々は古典的環境を拡張し、多目的相互作用と数値推論を必要とする2つの新しい領域、パックマンとガザを導入することで5つの領域を確立する。
トランジッション・アウェア・インシデント付きSVoTは導入ドメイン間の最先端性能を実現し、アウト・オブ・ディストリビューション・テストセットにおいて最大65%の精度向上が得られる。
- 参考スコア(独自算出の注目度): 23.099545873228195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial reasoning remains a challenge for Multimodal Large Language Models (MLLMs), as it requires reliable multi-hop inference over both intermediate states and state transitions. Current studies often leave intermediate states unverified and treat state transitions as implicit processes, which limits reliability in multi-hop spatial reasoning. To address this, we propose State-aware Visualization-of-Thought (SVoT), a reinforcement learning framework that generates interleaved, verifiable intermediate states and visualizations. SVoT integrates transition reasoning chains into the generation processes, enabling the model to verify action preconditions and effects through interleaved textual and visual reasoning. We train SVoT via Group Relative Policy Optimization (GRPO), instantiating verification through reward design and evaluating the efficacy of different fine-grained rewards. As existing benchmarks reduce state transitions to single-variable updates, substantially simplifying the problems, we establish five domains by extending classical environments and introducing two novel domains, Pacman and Gather, that require multi-object interactions and numerical reasoning. These domains support systematic evaluation of multi-hop spatial reasoning with quantitative verification of generated intermediate states and transition reasoning. SVoT with transition-aware supervision achieves state-of-the-art performance across the introduced domains, yielding up to a 65% absolute accuracy gain on out-of-distribution test sets.
- Abstract(参考訳): 空間推論は、中間状態と状態遷移の両方に対して信頼性の高いマルチホップ推論を必要とするため、MLLM(Multimodal Large Language Models)にとって依然として課題である。
現在の研究では、状態遷移を暗黙のプロセスとして扱い、マルチホップ空間的推論の信頼性を制限している。
そこで本研究では,中間状態と可視化情報を生成する強化学習フレームワークであるステートアウェア・ビジュアライゼーション・オブ・ソート(SVoT)を提案する。
SVoTはトランジッション推論チェーンを生成プロセスに統合し、インターリーブされたテキストおよび視覚的推論を通じてアクションプレコンディションと効果を検証する。
我々は、グループ相対政策最適化(GRPO)を介してSVoTを訓練し、報酬設計による検証をインスタンス化し、異なる微粒な報酬の有効性を評価する。
既存のベンチマークは、単一変数更新への状態遷移を減らし、問題を著しく単純化するので、古典的な環境を拡張し、複数オブジェクトの相互作用と数値推論を必要とする2つの新しいドメイン、パックマンとギャザーを導入することで、5つのドメインを確立する。
これらの領域は、生成された中間状態の定量的検証と遷移推論によるマルチホップ空間推論の体系的評価を支援する。
SVoTとトランジション・アウェア・インシデントは、導入したドメイン間で最先端のパフォーマンスを達成し、アウト・オブ・ディストリビューション・テストセットで最大65%の精度を得る。
関連論文リスト
- VFM$^{4}$SDG: Unveiling the Power of VFMs for Single-Domain Generalized Object Detection [33.39250067795076]
現実のシナリオでは、天気、照明、撮像条件の連続的な変化は、大きなドメインシフトを引き起こす。
一般化オブジェクト検出(SDGOD)のための二元学習フレームワークを提案する。
符号化段階では,オブジェクト・バックグラウンドとインスタンス間モデリングの堅牢性を高めるために,クロスドメイン安定優先蒸留を提案する。
復号段階では,セマンティック・コンテキスト優先型クエリ拡張を提案する。
論文 参考訳(メタデータ) (2026-04-23T10:04:36Z) - Multimodal Fact-Level Attribution for Verifiable Reasoning [80.60864342985748]
マルチモーダル大言語モデル(MLLM)は、多段階推論と長文生成を含む実世界のタスクにますます利用されている。
既存のマルチモーダルグラウンドベンチマークと評価手法は、複雑なマルチモーダル推論における属性評価に失敗する。
我々は、直接観察以上の推論を必要とする設定において、ファクトレベルのマルチモーダル属性を評価するためのベンチマークであるMuRGAtを紹介する。
論文 参考訳(メタデータ) (2026-02-12T03:10:02Z) - From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language Models [31.570738638262956]
マルチモーダル大言語モデル (MLLM) は, 単一画像空間推論において大きく進歩している。
クロスビュー対応と視点cHangeのためのヒューマン・アウェア・トレーニングを提案する。
論文 参考訳(メタデータ) (2026-02-09T14:39:43Z) - MAS-ProVe: Understanding the Process Verification of Multi-Agent Systems [59.20800753428596]
マルチエージェントシステム(MAS)におけるプロセス検証の系統的研究であるMAS-ProVeを提案する。
本研究は3つの検証パラダイム(LLM-as-a-Judge、報酬モデル、プロセス報酬モデル)にまたがる。
プロセスレベルの検証は、常に性能を改善しておらず、しばしば高いばらつきを示す。
論文 参考訳(メタデータ) (2026-02-03T03:30:36Z) - Reasoning as State Transition: A Representational Analysis of Reasoning Evolution in Large Language Models [50.39102836928242]
モデルの内部状態の力学を研究するために,表現的視点を導入する。
トレーニング後、静的な初期表現品質が限られた改善しか得られないことが判明した。
論文 参考訳(メタデータ) (2026-01-31T15:23:33Z) - Reasoning in the Dark: Interleaved Vision-Text Reasoning in Latent Space [66.76138204796497]
マルチモーダル推論は、最終回答に到達する前に中間推論ステップを組み込むことでMLLMの能力を高めることを目的としている。
本稿では,視覚情報とテキスト情報の両方を潜在空間内の推論プロセスに注入するInterleaved Vision-Text Latent Reasoning (IVT-LR)を提案する。
M3CoTとScienceQAの実験により、我々のIVT-LR法は5.45%の精度で平均的な性能向上を実現し、同時に既存の手法に比べて5倍以上の速度向上を実現した。
論文 参考訳(メタデータ) (2025-10-14T14:58:25Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - Generalizable Engagement Estimation in Conversation via Domain Prompting and Parallel Attention [44.47779807499202]
本稿では, DAPA(Domain-Adaptive Parallel Attention)を提案する。
DAPAは、学習可能なドメイン固有ベクトルを入力に先延ばしすることで、Domain Promptingメカニズムを導入する。
インタラクションの同期をキャプチャするために、Parallel Cross-Attentionモジュールも組み込まれている。
論文 参考訳(メタデータ) (2025-08-20T06:10:03Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。