論文の概要: Perceive, Interact, Reason: Building Tool-Augmented Visual Agents for Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2606.12830v1
- Date: Thu, 11 Jun 2026 02:54:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.549162
- Title: Perceive, Interact, Reason: Building Tool-Augmented Visual Agents for Spatial Reasoning
- Title(参考訳): 空間的推論のためのツール強化ビジュアルエージェントの構築
- Authors: Changye Li, Meng Lu, Yi Wu, Ligeng Zhu,
- Abstract要約: PERIA(Perception-Interaction-reason Agent)は、空間推論タスクのためのツール拡張ビジュアルエージェントである。
PERIAは、テキスト、シンボル、空間的証拠を公開する視覚認識ツールと、視覚コンテキストを操作する視覚インタラクションツールの2つの軽量ツールファミリを使用している。
- 参考スコア(独自算出の注目度): 13.857043940162965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent vision-language models (VLMs) demonstrate strong multimodal understanding, they remain limited in spatial reasoning tasks that require active evidence acquisition and multi-step visual interaction. This limitation suggests that relying solely on implicit visual representations from vision encoders is insufficient for recovering fine-grained spatial evidence. We introduce PERception-Interaction-reason Agent (PERIA), a tool-augmented visual agent for spatial reasoning tasks across map reasoning, visual probing, and vision reconstruction. PERIA uses two lightweight tool families: vision perception tools for exposing textual, symbolic, and spatial evidence, and vision interaction tools for manipulating visual context, tracing paths, and verifying spatial relations. To train PERIA, we develop a unified recipe that combines supervised tool-use trajectory synthesis, composite rewards, and Observation-Relaxed Group-in-Group Policy Optimization (OR-GIGPO) for effective multi-tool behavior. Experiments on 13 benchmarks from 8 datasets show that PERIA-8B improves over the Qwen3-8B backbone by 10.0% on in-distribution benchmarks and 4.4% on out-of-distribution benchmarks, while outperforming previous state-of-the-art baselines of similar size by 7.0%-14.8%. It also achieves performance comparable to much larger models such as Qwen3-VL-235B-A22B-Thinking and GPT-5, demonstrating the effectiveness of PERIA in enhancing spatial reasoning capabilities.
- Abstract(参考訳): 近年の視覚言語モデル(VLM)は強いマルチモーダル理解を示すが、活発なエビデンス獲得と多段階視覚相互作用を必要とする空間的推論タスクに限られている。
この制限は、視覚エンコーダからの暗黙の視覚表現にのみ依存することは、きめ細かい空間的証拠を回復するのに不十分であることを示している。
本稿では,空間推論タスクを地図推論,視覚探索,視覚再構成に応用したツール強化視覚エージェントPERIAを紹介する。
PERIAは、テキスト、シンボル、空間証拠を公開する視覚認識ツールと、視覚コンテキストを操作する視覚インタラクションツール、トレースパス、空間関係の検証の2つの軽量ツールファミリを使用している。
PERIAを訓練するために、教師付きツール利用軌道合成、複合報酬、および効果的なマルチツール動作のための観察関連グループ内ポリシー最適化(OR-GIGPO)を組み合わせた統一レシピを開発した。
8つのデータセットから得られた13のベンチマークの実験によると、PERIA-8BはQwen3-8Bのバックボーンを10.0%、アウト・オブ・ディストリビューション・ベンチマークを4.4%改善し、以前の最先端のベースラインを7.0%-14.8%上回った。
また、Qwen3-VL-235B-A22B-ThinkingやGPT-5といったより大型のモデルに匹敵する性能を実現し、空間推論能力の向上におけるPERIAの有効性を示した。
関連論文リスト
- Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models [61.89854422423702]
視覚言語モデル(VLM)は多くのタスクで優れるが、重要な情報が直接観測できない場合、空間的推論に苦慮する。
Inaginative Perception Tokens (IPT) は、VLMが知覚する空間構成を外部化する中間的知覚表現である。
IPTの監督は、空間的推論を一貫して改善し、しばしば思考訓練のテキスト連鎖よりも優れる。
論文 参考訳(メタデータ) (2026-06-02T17:59:17Z) - Embodied3DBench: Benchmarking Low-Level Embodied Spatial Intelligence of Vision Language Models [50.6415287154632]
Embodied3DBenchは3D環境における低レベル空間インテリジェンスをターゲットにしたロボット中心のベンチマークである。
ベンチマークは12のサブカテゴリにまたがり、21万以上の高品質な質問応答ペアを含んでいる。
論文 参考訳(メタデータ) (2026-05-27T20:28:56Z) - Visual-ERM: Reward Modeling for Visual Equivalence [59.317480168347664]
Visual Equivalence Reward Model (Visual-ERM)は、細粒度、解釈可能、タスクに依存しないフィードバックを提供するマルチモーダル生成報酬モデルである。
Visual-ERM は Qwen3-VL-8B-Instruct を 8.4 で改善し、テーブルとSVGのパースで一貫したゲインを得る。
VisualCritic-RewardBench(VC-RewardBench)は、構造化された視覚データに対して微細な画像と画像の相違を判定するためのベンチマークである。
論文 参考訳(メタデータ) (2026-03-13T17:58:14Z) - GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations [19.262982037123447]
視覚言語モデル(VLM)は、他の視覚的推論タスクよりも精度がかなり低いため、タスクのカウントにおいて持続的な幻覚を示す。
物体検出モデルから空間的接地を明示的に拡張して幻覚を緩和するフレームワークであるGroundCountを提案する。
論文 参考訳(メタデータ) (2026-03-11T17:04:30Z) - What if Agents Could Imagine? Reinforcing Open-Vocabulary HOI Comprehension through Generation [35.62323084880028]
我々は,認知的推論と生成的想像とを調和させて,堅牢な視覚的理解を実現するエージェントフレームワークであるtextbfImagineAgentを提案する。
提案手法は,検出された実体と候補行動との間の可視的関係を明示的にモデル化する認知マップを革新的に構築する。
検索強化、画像トリミング、拡散モデルなどのツールを動的に起動し、ドメイン固有の知識を集め、視覚的証拠を充実させる。
論文 参考訳(メタデータ) (2026-02-12T02:51:59Z) - From Sight to Insight: Improving Visual Reasoning Capabilities of Multimodal Models via Reinforcement Learning [12.548754243700657]
マルチモーダルな大言語モデル(MLLM)は、視覚情報の統合に欠ける推論を生成する。
このようなタスクにおいて視覚的知覚が重要なボトルネックであることを示し、クロード3.5では26.7%、クロード3.7では23.6%の利得を得た。
我々は,イメージ理解,思考ステップ,回答精度など,異なる推論的側面を対象とする6つの報酬関数を設計・評価する。
Qwen-2.5-VL-7Bの実験では、ベースモデルよりも5.56%改善されており、ドメイン内設定とドメイン外設定の両方で一貫して改善されている。
論文 参考訳(メタデータ) (2026-01-01T05:19:28Z) - Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs [76.47326680870783]
VISTA-Gymは視覚言語モデル(VLM)におけるツール統合視覚推論能力のインセンティブ化のためのトレーニング環境である。
VISTA-Gymはビジュアルツールの標準化されたインタフェースで様々な実世界のマルチモーダル推論タスクを統合する。
VISTA-R1-8Bは、11の公開推論集約VQAベンチマークにおいて、同様のサイズで最先端のベースラインを9.51%-18.72%上回ることを示す。
論文 参考訳(メタデータ) (2025-11-24T22:58:26Z) - VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。