論文の概要: SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2606.13673v1
- Date: Thu, 11 Jun 2026 17:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.982324
- Title: SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning
- Title(参考訳): SpaceClaw:エージェント空間推論のためのアクションインタフェースの再考
- Authors: Seokju Cho, Ryo Hachiuma, Abhishek Badki, Hang Su, Byung-Kwan Lee, Chan Hee Song, Sifei Liu, Subhashree Radhakrishnan, Seungryong Kim, Yu-Chiang Frank Wang, Min-Hung Chen,
- Abstract要約: このインタフェースの設計は,オープンエンド空間推論のためのエージェントのキャパシティをいかに形作るかを検討する。
本研究では,アクションインタフェースとしてコードを採用する空間推論のためのトレーニングフリーフレームワークであるSpatialClawを提案する。
- 参考スコア(独自算出の注目度): 99.49739831030388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial reasoning, the ability to determine where objects are, how they relate, and how they move in 3D, remains a fundamental challenge for vision-language models (VLMs). Tool-augmented agents attempt to address this by augmenting VLMs with specialist perception modules, yet their effectiveness is bounded by the action interface through which those tools are invoked. In this work, we study how the design of this interface shapes the agent's capacity for open-ended spatial reasoning. Existing spatial agents either employ single-pass code execution, which commits to a full analysis strategy before any intermediate result is observed, or rely on a structured tool-call interface that often offers less flexibility for freely composing operations or tailoring the analysis to each task. Both designs offer limited flexibility for open-ended, complex 3D/4D spatial reasoning. We therefore propose SpatialClaw, a training-free framework for spatial reasoning that adopts code as the action interface. SpatialClaw maintains a stateful Python kernel pre-loaded with input frames and a suite of perception and geometry primitives, letting a VLM-backed agent write one executable cell per step conditioned on all prior outputs, enabling the agent to flexibly compose and manipulate perception results and adapt its analysis to both intermediate text and visual observations and the demands of each problem. Evaluated across 20 spatial reasoning benchmarks spanning a broad range of static and dynamic 3D/4D spatial reasoning tasks, SpatialClaw achieves 59.9% average accuracy, outperforming the recent spatial agent by +11.2 points, with consistent gains across six VLM backbones from two model families without any benchmark- or model-specific adaptation.
- Abstract(参考訳): 空間的推論、オブジェクトがどこにあるか、どのように関係し、どのように3Dで動くかを決定する能力は、視覚言語モデル(VLM)の根本的な課題である。
ツール拡張エージェントは、VLMを専門的な知覚モジュールで拡張することでこの問題に対処しようとするが、その効果はこれらのツールが呼び出されるアクションインターフェースによって制限される。
本研究では,このインタフェースの設計が,オープンエンド空間推論のためのエージェントのキャパシティをいかに形作るかを検討する。
既存の空間エージェントは、中間結果が観察される前に完全な分析戦略をコミットするシングルパスコード実行を採用するか、あるいは、操作を自由に構成したり、各タスクに分析を調整したりするための柔軟性の低い構造化ツールコールインターフェースに依存している。
どちらの設計も、オープンエンドで複雑な3D/4D空間推論に限られた柔軟性を提供する。
そこで我々は,アクションインタフェースとしてコードを採用する空間推論のためのトレーニングフリーフレームワークであるSpatialClawを提案する。
SpaceClawは、入力フレームと知覚と幾何学のプリミティブがプレロードされたステートフルなPythonカーネルを維持しており、VLMが支援するエージェントは、すべての事前出力で条件付けられたステップごとに1つの実行可能なセルを書ける。
様々な静的およびダイナミックな3D/4D空間推論タスクにまたがる20の空間推論ベンチマークで評価され、SpatialClawは59.9%の平均精度を達成し、最近の空間エージェントを+11.2ポイント上回った。
関連論文リスト
- GeoHAT: Geometry-Adaptive Hybrid Action Transformer for Mobile Manipulation [6.488530751190965]
全体移動操作には移動基地とマニピュレータの調整が必要である。
我々は、シンプルな原理に基づいて構築された、エンドツーエンドの拡散ベースのフレームワークGeoHATを提案する。
ManiSkill-HABシミュレーションベンチマークの実験では、GeoHATが79.3%の成功率を達成した。
論文 参考訳(メタデータ) (2026-06-11T14:25:09Z) - The Art of Interrogation: Consistency Amplifies Factuality in Spatial Reasoning [65.67266333751569]
現在のLRM(Large Reasoning Models)は、空間推論タスクにおいて顕著な汎用性を示すが、性能は著しく劣る。
本研究では,内的推論プロセスを対象とした自己指導型強化学習フレームワークを提案する。
このラベルのない整合性トレーニングは,地道的な監督によって訓練されたモデルの精度にアプローチし,多様なタスクやデータ領域にまたがる同様の一般化を実現することを示す。
論文 参考訳(メタデータ) (2026-06-10T10:50:06Z) - AFUN: Towards an Affordance Foundation Model for Functionality Understanding [12.890216832485647]
我々は,機能理解のための手頃な基礎モデルに向けたステップとして,我々のモデルを提示する。
我々は、異種ロボット、人間、シミュレーション、現実世界のスキャンデータを共有価格スキーマに変換する大規模な標準化データパイプラインを構築します。
私たちのモデルは、4つのベンチマークから8つのテストセットにまたがる大きなマージンで、すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2026-06-01T17:50:16Z) - ViSRA: A Video-based Spatial Reasoning Agent for Multi-modal Large Language Models [38.91282173333918]
ViSRAは、MLLMの空間的推論機構を調査するためのトレーニング不要のフレームワークである。
これは、専門家モデルからの明示的な空間情報を活用することにより、モジュラーでキュレートされた方法で空間推論を導く。
1)タスク固有のオーバーフィッティングではなく、人間のアライメントと移動可能な3D理解、(2)重い手作業によるキュレーションデータセットとともに、トレーニング後の計算コストが不要である。
論文 参考訳(メタデータ) (2026-05-11T07:20:09Z) - Towards Foundation Models for 3D Scene Understanding: Instance-Aware Self-Supervised Learning for Point Clouds [53.82500407523346]
PointINSは、幾何学的学習を通じてポイントクラウド表現を豊かにする、インスタンス指向の自己組織化フレームワークである。
PointINSは、屋内のインスタンスセグメンテーションで平均+3.5%のmAP改善、屋外のパン光学セグメンテーションで+4.1%のPQゲインを達成している。
論文 参考訳(メタデータ) (2026-03-26T08:31:06Z) - Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。
我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文 参考訳(メタデータ) (2026-02-23T11:00:08Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - AnchorDP3: 3D Affordance Guided Sparse Diffusion Policy for Robotic Manipulation [8.603450327406879]
AnchorDP3は、デュアルアームロボット操作のための拡散ポリシーフレームワークである。
大規模で手続き的に生成されたシミュレーションデータに基づいて訓練される。
RoboTwinベンチマークの平均成功率は98.7%に達する。
論文 参考訳(メタデータ) (2025-06-24T03:03:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。