論文の概要: AlloSpatial: Agentic Harness Framework for Spatial Reasoning in Foundation Models
- arxiv url: http://arxiv.org/abs/2606.08952v1
- Date: Mon, 08 Jun 2026 02:55:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.66221
- Title: AlloSpatial: Agentic Harness Framework for Spatial Reasoning in Foundation Models
- Title(参考訳): AlloSpatial:基礎モデルにおける空間推論のためのエージェントハーネスフレームワーク
- Authors: Shouwei Ruan, Bin Wang, Zhenyu Wu, Qihui Zhu, Yuxiang Zhang, Jingzhi Li, Yubin Wang, Xingxing Wei,
- Abstract要約: AlloSpatialは、基礎モデルにおけるアロセントリック空間認知のためのエージェントフレームワークである。
World2Mindは、エゴセントリックな観察を構造化されたアロセントリックな前駆体に変換する、プラグアンドプレイの認知マッピングサンドボックスである。
実験によると、AlloSpatialはトレーニング不要の環境でプロプライエタリなモデルを5%-18%改善している。
- 参考スコア(独自算出の注目度): 33.84590534650041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Foundation Models (MFMs) have made substantial progress, yet remain fragile in spatial reasoning over the physical world. A key bottleneck lies in their inability to transform local egocentric observations into a global allocentric spatial representation. To address this, we propose AlloSpatial, an agentic framework for allocentric spatial cognition in foundation models. AlloSpatial introduces World2Mind, a plug-and-play cognitive mapping sandbox that converts egocentric observations into structured allocentric priors, including Allocentric-Spatial Trees and route maps that support querying object topology, geometric relations, passability, and trajectories. To utilize these priors reliably under noisy reconstruction and ambiguous visual evidence, AlloSpatial introduces a Spatial Reasoning Harness for tool-use judgment, modality-decoupled cue collection, and geometry-semantic arbitration. We further internalize this process in Qwen3-VL through cold-start reinforcement learning with a harness-gated trajectory-level reward. Experiments on VSI-Bench and MindCube show that AlloSpatial improves proprietary models by 5%-18% in a training-free setting, while ASTs alone support strong spatial reasoning even when visual inputs are removed. The trained AlloSpatial agents further outperform larger general-purpose models and competitive spatial baselines, suggesting that structured allocentric representations, active tool use, and verifiable reasoning offer a promising route toward spatially capable foundation models.
- Abstract(参考訳): マルチモーダル・ファンデーション・モデル(MFM)は、物理世界に対する空間的推論において脆弱なままである。
重要なボトルネックは、局所的な自我中心の観測をグローバルな同心空間表現に変換することができないことである。
そこで本研究では,アロセントリック空間認識のためのエージェントフレームワークであるAlloSpatialを提案する。
AlloSpatialがWorld2Mindを紹介した。これはプラグアンドプレイの認知マッピングサンドボックスで、エゴセントリックな観察をアロセントリックな空間木や、クエリ対象のトポロジ、幾何学的関係、パス可能性、軌跡などのルートマップを含む、構造化されたアロセントリックな先行データに変換する。
ノイズの多い再建と曖昧な視覚的証拠を確実に活用するために、AlloSpatialはツール使用判断、モダリティデカップリングキューコレクション、幾何学的調停のための空間推論ハーネスを導入している。
我々はこの過程をQwen3-VLでさらに内部化する。
VSI-BenchとMindCubeの実験では、AlloSpatialはトレーニングフリー環境でプロプライエタリなモデルを5%-18%改善し、ASTは視覚入力を除去しても強い空間推論をサポートする。
訓練されたAlloSpatialエージェントは、より大きな汎用モデルや競争空間ベースラインよりも優れており、構造化されたアロセントリック表現、アクティブツールの使用、検証可能な推論が、空間的に有能な基礎モデルへの有望なルートを提供することを示唆している。
関連論文リスト
- Self-Evolving Spatial Reasoning in Vision Language Models via Geometric Logic Consistency [53.28076739140119]
本稿では,視覚・言語モデル(VLM)における論理的一貫性を幾何学的・言語的双対性演算によって実現する枠組みを提案する。
SAGEは、従来のGRPO法に比べてモデルに依存しず、データ効率が良く、既存のVLMに軽量な後学習段階として適用することができる。
ビデオおよび空間推論ベンチマークの実験では、強いベースラインよりも一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-05-18T10:05:21Z) - SpatialImaginer: Towards Adaptive Visual Imagination for Spatial Reasoning [67.67774742200626]
空間知能は、視覚的な観察から幾何学的および物理的構造を推論する能力を指すもので、大きな言語モデルにとって重要な課題である。
テキスト推論と視覚的想像力を組み合わせた統合型マルチモーダル生成フレームワークを提案する。
本フレームワークでは,高レベルなセマンティックプランニングのためのテキストチェーンと,幾何感応的な状態変換と整合性保存のための視覚的想像力を用いて,分割・対数戦略を採用している。
論文 参考訳(メタデータ) (2026-04-19T11:21:59Z) - SpatialReward: Verifiable Spatial Reward Modeling for Fine-Grained Spatial Consistency in Text-to-Image Generation [62.55421542903781]
生成された画像の空間的レイアウトを評価するために明示的に設計された検証可能な報酬モデルである textbfSpatialReward を提案する。
安定拡散とFLUXの実験により、空間的リワードをRLトレーニングに組み込むことで、空間的一貫性と全体的な生成品質が一貫して向上することが示された。
論文 参考訳(メタデータ) (2026-03-23T17:26:35Z) - GeoSense: Internalizing Geometric Necessity Perception for Multimodal Reasoning [51.63457948949102]
マルチモーダル大規模言語モデル(MLLM)の限られた空間的理解を克服する枠組みを開発する。
この枠組みは,2次元の手がかりが不十分と判断された場合の推論において,幾何学的特徴を自律的に関与させることにより,知覚的不整合を意識したモデルを実現する。
論文 参考訳(メタデータ) (2026-03-11T03:32:12Z) - World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models [25.135316296678187]
既存の手法は、3Dグラウンドデータを介して統計的ショートカットを過度に適合させるか、2Dの視覚的知覚に限定される。
トレーニング不要な空間情報ツールキット World2Mind を提案する。
我々はWorld2MindがGPT-5.2のようなフロンティアモデルの性能を5%18%向上させることを示した。
論文 参考訳(メタデータ) (2026-03-10T15:12:14Z) - 3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models [16.924616915709123]
視覚言語モデルは、2次元の観察からコヒーレントな3次元の心的表現を構築することができない。
オーソグラフィビューにおける空間推論の基盤となるフレームワークである textbf3ViewSense を紹介する。
空間的推論ベンチマークによる実験結果から,提案手法が既存のベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2026-03-08T17:57:56Z) - Thinking with Geometry: Active Geometry Integration for Spatial Reasoning [68.59084007360615]
我々は,能動的知覚にパラダイム・パッシブ・フュージョンをシフトさせるフレームワークであるGeoThinkerを提案する。
特徴混合の代わりに、GeoThinkerはモデルが内部の推論要求に応じて条件付けられた幾何学的証拠を選択的に検索することを可能にする。
その結果,次世代の空間知能には,空間構造を積極的に統合する能力が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-02-05T18:59:32Z) - Allocentric Perceiver: Disentangling Allocentric Reasoning from Egocentric Visual Priors via Frame Instantiation [41.434638833165494]
Allocentric Perceiverはトレーニング不要の戦略で、1つ以上の画像から、既成の幾何学の専門家でメトリクスの3D状態を復元する。
Allocentric Perceriverは暗黙の推論から明示的な計算へと精神的な回転をオフロードする。
論文 参考訳(メタデータ) (2026-02-05T15:45:39Z) - EagleVision: A Dual-Stage Framework with BEV-grounding-based Chain-of-Thought for Spatial Intelligence [10.889641815961133]
空間知能アプローチは通常、2D推論パイプラインやブラックボックス再構成モジュールを備えたMLLMに3Dキューを付加する。
本稿では,マクロ認識とマイクロ検証による進行的空間認知のためのフレームワークであるEagleVisionを提案する。
論文 参考訳(メタデータ) (2025-12-17T07:51:36Z) - SpatialLadder: Progressive Training for Spatial Reasoning in Vision-Language Models [73.19077622773075]
本稿では,空間知能を段階的に構築するための包括的方法論を提案する。
オブジェクトローカライゼーション、単一画像、マルチビュー、ビデオ空間推論タスクにまたがる26,610のサンプルを含むマルチモーダルデータセットであるSpatialLadder-26kを紹介する。
本研究では,物体の局所化による空間知覚の確立,多次元空間的タスクによる空間理解の発達,および検証可能な報酬を用いた強化学習による複雑な推論の強化を目的とした3段階のプログレッシブ・トレーニング・フレームワークを設計する。
論文 参考訳(メタデータ) (2025-10-09T17:50:54Z) - SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。
我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。
最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
論文 参考訳(メタデータ) (2024-12-17T09:10:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。