論文の概要: S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence
- arxiv url: http://arxiv.org/abs/2606.20515v1
- Date: Thu, 18 Jun 2026 17:34:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:40.023119
- Title: S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence
- Title(参考訳): S-Agent:空間的ツールを用いた空間的知能のための推論
- Authors: Yalun Dai, Hao Li, Shulin Tian, Runmao Yao, Yuhao Dong, Fangzhou Hong, Zhaoxi Chen, Fangfu Liu, Baoliang Tian, Dingwen Zhang, Tao Wang, Kim-Hui Yap, Ziwei Liu,
- Abstract要約: textscS-Agentは空間的知覚をフレーム中心の認識を超えたシーン中心の理解に再認識する。
textscS-Agentは、VLMをセマンティックプランナーとしてキャストし、必要な証拠を決定する。
textscS-Agentは、トレーニングのない方法で、オープンソースとクローズドソース両方のVLMを一貫して改善する。
- 参考スコア(独自算出の注目度): 77.5121349100339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world spatial intelligence requires reasoning over a continuous and evolving 3D world, yet existing VLMs and tool-augmented agents largely remain tied to static, stateless inference from isolated visual observations. We introduce \textbf{\textsc{S-Agent}}, a spatial tool-use agentic paradigm for understanding and reasoning over continuous multi-view images and videos. By formulating spatial reasoning as spatio-temporal evidence accumulation rather than isolated frame-level prediction, \textsc{S-Agent} reshapes spatial perception into scene-centric understanding beyond frame-centric recognition. Specifically, \textsc{S-Agent} casts the VLM as a semantic planner that decides what evidence is needed, while a hierarchy of spatial tools and experts grounds objects in 2D, lifts them into 3D geometric evidence, and aggregates this evidence into high-level spatial knowledge (\textit{e.g.}, counting, measurement, orientation, and relative position). Additionally, a temporal memory mechanism, including Scene Memory for maintaining the evolving scene state and Agent Memory for accumulating reasoning context, enables evidence integration across frames and reasoning steps. Comprehensive experiments on multi-view and video spatial reasoning benchmarks show that \textsc{S-Agent} consistently improves both open-source and closed-source VLMs in a training-free manner. Beyond inference-time augmentation, supervised fine-tuning (SFT) on \textsc{S-Agent}-generated spatial trajectories \textsc{S-300K} yields \textsc{S-Agent-8B}, a compact spatial agent that significantly surpasses similar-scale baselines (e.g., Qwen3-VL-8B) and performs comparably to advanced closed-source models (e.g., GPT-5.4 and Gemini 3).
- Abstract(参考訳): 現実世界の空間知能は、連続的で進化している3D世界に対する推論を必要とするが、既存のVLMとツール強化されたエージェントは、孤立した視覚的観察からの静的でステートレスな推論に大きく結びついている。
本稿では,連続した多視点画像やビデオに対する理解と推論のための空間的ツール・エージェント・パラダイムである \textbf{\textsc{S-Agent}} を紹介する。
空間的推論を独立したフレームレベルの予測ではなく時空間的証拠の蓄積として定式化することにより, フレーム中心の認識を超えた空間的認識をシーン中心の理解へと還元する。
特に、 \textsc{S-Agent} は、VLM を意味プランナーとして、何の証拠が必要なのかを決定する一方で、空間的ツールや専門家の階層が2次元の物体を接地し、それらを3次元の幾何学的証拠に上げ、この証拠を高レベルの空間的知識 (\textit{e g }, counting, Measurement, orientation, relative position) に集約する。
さらに、進化するシーン状態を維持するScene Memoryや、推論コンテキストを蓄積するAgent Memoryなどの時間記憶機構により、フレーム間のエビデンス統合と推論ステップが実現される。
マルチビューおよびビデオ空間推論ベンチマークに関する総合的な実験により、‘textsc{S-Agent} はオープンソースとクローズドソースの両方のVLMをトレーニング不要な方法で一貫して改善することを示した。
Inference-time Augmentation の他に、textsc{S-Agent} の生成した空間軌跡上の教師付き微調整(SFT)は、同様のスケールのベースライン(例えば Qwen3-VL-8B)を大幅に超えるコンパクトな空間エージェントである \textsc{S-Agent-8B} を出力し、高度なクローズドソースモデル(例えば g , GPT-5.4, Gemini 3) と互換性がある。
関連論文リスト
- SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning [99.49739831030388]
このインタフェースの設計は,オープンエンド空間推論のためのエージェントのキャパシティをいかに形作るかを検討する。
本研究では,アクションインタフェースとしてコードを採用する空間推論のためのトレーニングフリーフレームワークであるSpatialClawを提案する。
論文 参考訳(メタデータ) (2026-06-11T17:59:36Z) - Reasmory: 3D Reconstruction as Explicit Memory for VLMs Spatial Reasoning [43.950190960277865]
VLM(Vision-Language Models)は、空間的推論能力の出現を示すが、正確な空間的理解を必要とするタスクには信頼できない。
再構成空間メモリ上での構造化プログラム実行として空間推論を定式化するフレームワークであるtextbfReasmoryを提案する。
Reasmoryは明示的な3Dメモリを構築し、セマンティックな3Dオブジェクトインスタンスで拡張し、軽量なDomain-Specific Languageを導入している。
論文 参考訳(メタデータ) (2026-05-31T02:36:57Z) - Which Pretraining Paradigm Better Serves Spatial Intelligence? An Empirical Comparison of Vision-Language and Video Generation Models [31.851717131965824]
VLM(Vision-Language Models)とVGM(Video Generation Models)の最初の系統的凍結状態探索研究について述べる。
この軽量プローブを用いて,2つのモデルファミリの凍結表現にすでにコード化されている情報について,制御された比較を可能にする。
VLMはセマンティックタグ付けやインスタンスグルーピングが強く、VGMは密な幾何学やカメラの動きに対してよりアクセスしやすい信号を提供する。
論文 参考訳(メタデータ) (2026-05-27T08:20:04Z) - SpatialImaginer: Towards Adaptive Visual Imagination for Spatial Reasoning [67.67774742200626]
空間知能は、視覚的な観察から幾何学的および物理的構造を推論する能力を指すもので、大きな言語モデルにとって重要な課題である。
テキスト推論と視覚的想像力を組み合わせた統合型マルチモーダル生成フレームワークを提案する。
本フレームワークでは,高レベルなセマンティックプランニングのためのテキストチェーンと,幾何感応的な状態変換と整合性保存のための視覚的想像力を用いて,分割・対数戦略を採用している。
論文 参考訳(メタデータ) (2026-04-19T11:21:59Z) - GSMem: 3D Gaussian Splatting as Persistent Spatial Memory for Zero-Shot Embodied Exploration and Reasoning [9.203056739430865]
GSMemは3Dガウススプラッティング(3DGS)上に構築されたゼロショット型探査・推論フレームワーク
連続幾何と密接な外観を明示的にパラメータ化することにより、3DGSは持続的な空間記憶として機能し、エージェントにtextitSpatial Recollection を付与する。
本稿では,VLMによるセマンティックスコアリングと3DGSに基づくカバレッジ目標を組み合わせ,タスク認識探索と幾何学的カバレッジのバランスをとるハイブリッド探索戦略を提案する。
論文 参考訳(メタデータ) (2026-03-19T16:55:54Z) - EagleVision: A Dual-Stage Framework with BEV-grounding-based Chain-of-Thought for Spatial Intelligence [10.889641815961133]
空間知能アプローチは通常、2D推論パイプラインやブラックボックス再構成モジュールを備えたMLLMに3Dキューを付加する。
本稿では,マクロ認識とマイクロ検証による進行的空間認知のためのフレームワークであるEagleVisionを提案する。
論文 参考訳(メタデータ) (2025-12-17T07:51:36Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。