論文の概要: Reinforcing Dual-Path Reasoning in Spatial Vision Language Models
- arxiv url: http://arxiv.org/abs/2606.17539v1
- Date: Tue, 16 Jun 2026 05:32:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.289749
- Title: Reinforcing Dual-Path Reasoning in Spatial Vision Language Models
- Title(参考訳): 空間視覚言語モデルにおけるデュアルパス推論の強化
- Authors: Yatai Ji, An-Chieh Cheng, Yang Fu, Yukang Chen, Han Zhang, Zhaojing Yang, Wei Huang, Ka Chun Cheung, Song Han, Vidya Nariyambut Murali, Pavlo Molchanov, Jan Kautz, Simon See, Hongxu Yin, Ping Luo, Sifei Liu,
- Abstract要約: 本稿では,空間的VLMにLOR(Language-Only Reasoning)とDTR(Detect-Then-Reason)の2つの相補的推論経路を持つ統一的なフレームワークを提案する。
様々な空間ベンチマークにおいて、SR-REALは空間的VLMベースラインを著しく上回る。
- 参考スコア(独自算出の注目度): 113.86271063627782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial VLMs have made substantial progress in geometric perception, yet complex spatial reasoning requiring multi-step inference over depth, distance, and scene relations remains challenging. Moreover, different spatial queries call for fundamentally different strategies: some are best addressed through purely linguistic, step-by-step deduction, while others require explicit 3D grounding before quantitative inference. We present Dual-Path Spatial Reasoning via Reinforcement Learning for Spatial VLMs (SR-REAL), a unified framework that equips a spatial VLM with two complementary reasoning paths: Language-Only Reasoning (LOR), which performs step-by-step linguistic deduction, and Detect-Then-Reason (DTR), which detects 3D geometric cues (e.g., centers or bounding boxes) via region tokens before explicit geometric inference. SR-REAL begins with a cold-start supervised fine-tuning stage that constructs LOR and DTR chain-of-thought supervision and exposes a region-to-3D interface, followed by RL that optimizes the policy model with accuracy and format rewards; for DTR, a discrete center-based detection reward further refines geometric alignment. Across diverse spatial benchmarks, SR-REAL significantly outperforms spatial VLM baselines: (i) a single RL-trained model supports both reasoning paths, with DTR excelling in region-aware tasks through precise 3D localization and LOR enhancing general spatial reasoning; (ii) jointly training both paths fosters mutual reinforcement; (iii) high-quality, blended cold-start data is crucial for stable RL optimization; and (iv) the model generalizes across datasets and domains without per-task tuning, demonstrating positive transfer between LOR and DTR.
- Abstract(参考訳): 空間的VLMは幾何学的知覚においてかなりの進歩を遂げているが、深度、距離、シーンの関係について多段階の推論を必要とする複雑な空間的推論は依然として困難である。
さらに、異なる空間的クエリは基本的に異なる戦略を要求する: いくつかは純粋に言語的、ステップバイステップの推論によって対処される。
本稿では,空間的VLM(Reinforcement Learning for Space VLMs, SR-REAL)による空間的VLMに,ステップバイステップの言語推論を行うLOR(Language-Only Reasoning, 言語的推論を行うLOR)と,3次元幾何学的手がかり(例えば,中心や境界ボックス)を検出するDTR(Detect-Then-Reason, DTR)の2つの相補的推論経路を備えた統合フレームワークを提案する。
SR-REALは冷間開始制御された微調整段階から始まり、LORとDTRのチェーン・オブ・シンセサイザーを構築し、リージョン・ツー・3Dインターフェースを公開する。
様々な空間ベンチマークにおいて、SR-REALは空間的VLMベースラインを著しく上回る。
(i)1つのRL学習モデルが両方の推論経路をサポートし、DTRは正確な3Dローカライゼーションによる領域認識タスクに優れ、LORは一般的な空間的推論を強化する。
二 双方の道が相互の強化を後押しし、共同で訓練すること。
三 高品質混合コールドスタートデータは、安定したRL最適化に不可欠である。
(iv)モデルがタスク単位のチューニングなしにデータセットやドメインをまたいで一般化し,LORとDTR間の正の転送を示す。
関連論文リスト
- The Art of Interrogation: Consistency Amplifies Factuality in Spatial Reasoning [65.67266333751569]
現在のLRM(Large Reasoning Models)は、空間推論タスクにおいて顕著な汎用性を示すが、性能は著しく劣る。
本研究では,内的推論プロセスを対象とした自己指導型強化学習フレームワークを提案する。
このラベルのない整合性トレーニングは,地道的な監督によって訓練されたモデルの精度にアプローチし,多様なタスクやデータ領域にまたがる同様の一般化を実現することを示す。
論文 参考訳(メタデータ) (2026-06-10T10:50:06Z) - SpatialFly: Geometry-Guided Representation Alignment for UAV Vision-and-Language Navigation in Urban Environments [49.966170814478915]
UAV VLNのための幾何学誘導空間表現フレームワークを提案する。
明示的な3次元再構成を伴わないRGB観測において、SpatialFlyは幾何学誘導2次元表示アライメント機構を導入する。
実験結果から、SpatialFlyは現状のUAV VLNベースラインを目に見える環境と見えない環境の両方で一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2026-03-22T03:56:58Z) - JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments [34.02990381039783]
本稿では, AV-LLMsを3次元空間に拡張し, 共同空間の接地と推論を可能にするフレームワークであるJAEGERを提案する。
我々の研究の中核となる貢献は、学習された空間音響表現である神経強度ベクトル(Neural IV)である。
我々のアプローチは、多様な空間認識と推論タスクにまたがる2D中心のベースラインを一貫して超越している。
論文 参考訳(メタデータ) (2026-02-20T04:06:07Z) - RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。
これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。
空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T12:35:57Z) - Let Language Constrain Geometry: Vision-Language Models as Semantic and Spatial Critics for 3D Generation [34.44214123004662]
本稿では,差別化可能な意味的・空間的批判のための枠組みであるVLM3Dを提案する。
我々のコアコントリビューションは、VLMの「Yes or No log-odds」から派生した2言語による批判信号です。
VLM3Dは、VLMの豊かな言語によるセマンティクスと空間の理解を多種多様な3D生成パイプラインに注入する、原則的で一般的な経路を確立している。
論文 参考訳(メタデータ) (2025-11-18T09:05:26Z) - SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards [37.39035418889281]
構造的空間接地と多段階推論を統合するためにRLで訓練された3D対応MLLMであるSpatialThinkerを紹介する。
このモデルは,タスク関連オブジェクトと空間関係のシーングラフを構築し,密集した空間報酬による回答への推論を行うことにより,人間のような空間知覚をシミュレートする。
論文 参考訳(メタデータ) (2025-11-10T18:52:47Z) - SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization [57.484274282231226]
本稿では,R1スタイルのトレーニングを空間VQAに拡張する最初のフレームワークであるSVQA-R1を提案する。
特に,オブジェクト間の空間的関係を摂動させることで,視点に一貫性のある報酬を構成する新しいグループワイドRL戦略であるSpatial-GRPOを紹介する。
我々のモデルSVQA-R1は空間的VQAベンチマークの精度を劇的に向上させるだけでなく、教師付き微調整データを使用しなくても解釈可能な推論経路を示す。
論文 参考訳(メタデータ) (2025-06-02T06:58:43Z) - Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition
with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。
D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文 参考訳(メタデータ) (2020-10-30T20:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。