論文の概要: SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks
- arxiv url: http://arxiv.org/abs/2606.09669v1
- Date: Mon, 08 Jun 2026 15:51:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.485043
- Title: SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks
- Title(参考訳): SpaceWorld: 実世界のタスクにおけるマルチモーダルエージェントの対話型空間推論のベンチマーク
- Authors: Hongcheng Gao, Hailong Qu, Jingyi Tang, Jiahao Wang, Zihao Huang, Hengkang Qiao, Shihong Huang, Junming Yang, Yi Li, Hongyixuan Yuan, Wenjie Li, Bohan Zeng, Wenbo Li, Bo Wang, Jianhui Liu, Olive Huang, Haoyang Huang, Wentao Zhang, Guoqing Huang, Nan Duan, Yinpeng Dong,
- Abstract要約: SpaceWorldは、複雑な現実世界のタスクにおけるマルチモーダルエージェントのインタラクティブな空間的理解を評価するためのベンチマークである。
多様なドメイン(例えば、家庭のルーチン、旅行、社会協力など)にまたがる760の人称タスクが特徴である。
信頼性評価のために、各タスクは、人間検証された初期状態、参照軌跡、端末状態検証器を含む。
- 参考スコア(独自算出の注目度): 73.92333717662558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial reasoning is a foundational capability for multimodal large language models (MLLMs) to perceive and operate within the physical world. However, existing benchmarks predominantly rely on passive evaluation (e.g., static VQA) or simulator-specific pipelines, failing to assess general interactive spatial understanding. We introduce SpatialWorld, a unified benchmark designed specifically for evaluating the interactive spatial understanding of multimodal agents in complex real-world tasks. Integrating eight heterogeneous simulation backends under a shared, simulator-agnostic protocol, SpatialWorld features 760 human-annotated tasks across diverse domains (e.g., household routines, travel, social collaboration). Agents must solve tasks under vision-only partial observability, actively gathering egocentric visual evidence and expressing decisions via a unified, text-based action interface native to MLLMs. For reliable evaluation, each task includes a human-validated initial state, a reference trajectory, and a terminal-state verifier. Evaluating 15 advanced agents reveals that robust spatial task solving remains challenging: the strongest model, GPT-5, achieves an average task success rate (TSR) of only 17.4%, while the leading open-source model, Qwen-3.5, reaches 14.1%. Further analysis exposes a clear mismatch between task success and execution efficiency, alongside substantial domain-specific performance variations. These bottlenecks in active exploration and long-horizon planning position SpatialWorld as a rigorous testbed for future spatial agents.
- Abstract(参考訳): 空間推論は、マルチモーダルな大言語モデル(MLLM)が物理的世界の中で知覚し、操作する基礎的な能力である。
しかし、既存のベンチマークは主に受動的評価(静的VQAなど)やシミュレータ固有のパイプラインに依存しており、一般的な対話的空間理解を評価できない。
本研究では,複雑な実世界のタスクにおけるマルチモーダルエージェントのインタラクティブな空間的理解を評価するために設計された,SpatialWorldという統合ベンチマークを紹介する。
共有されたシミュレータに依存しないプロトコルの下で8つの異種シミュレーションバックエンドを統合することで、SpatialWorldは、さまざまなドメイン(例えば、家庭のルーチン、旅行、社会的なコラボレーション)にまたがる760のヒューマンアノテートタスクを特徴付ける。
エージェントは視覚のみの部分観察可能性の下でタスクを解決し、エゴセントリックな視覚的証拠を積極的に収集し、MLLMに固有の統一されたテキストベースのアクションインターフェースを通じて決定を表現する必要がある。
信頼性評価のために、各タスクは、人間検証された初期状態、参照軌跡、端末状態検証器を含む。
最強のモデルであるGPT-5は17.4%のタスク成功率(TSR)を獲得し、主要なオープンソースモデルであるQwen-3.5は14.1%に達した。
さらなる分析により、タスクの成功と実行効率の明確なミスマッチが明らかになり、ドメイン固有のパフォーマンスが大幅に変化する。
活発な探査と長期計画におけるこれらのボトルネックは、将来の宇宙エージェントの厳格なテストベッドとして空間ワールドに位置づけられている。
関連論文リスト
- OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language Environment Simulation [57.505743202759646]
OccuBenchは10の業界カテゴリと65の専門ドメインにわたる100の現実のプロフェッショナルタスクシナリオをカバーするベンチマークである。
我々のマルチエージェント合成パイプラインは, 可溶性, 校正困難, 文書基底の多様性を保証した評価インスタンスを自動生成する。
論文 参考訳(メタデータ) (2026-04-13T00:27:32Z) - ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation [66.02142169323521]
Vision-Language-ActionモデルとWorld Modelは最近、汎用ロボットインテリジェンスのための有望なパラダイムとして登場した。
既存のベンチマークは、主にシミュレータ中心であり、制御性を提供するが、知覚ノイズによって引き起こされる現実のギャップを捉えることができない。
シミュレーションと実世界の実行を橋渡しする標準化された評価フレームワークであるManipArenaを紹介する。
論文 参考訳(メタデータ) (2026-03-30T15:06:41Z) - TongSIM: A General Platform for Simulating Intelligent Machines [59.27575233453533]
エボディード・インテリジェンス(Embodied Intelligence)は、現実的なシミュレートされた環境における訓練エージェントに焦点を当てる。
TongSIMは、エンボディエージェントのトレーニングと評価のための高忠実で汎用的なプラットフォームである。
論文 参考訳(メタデータ) (2025-12-23T10:00:43Z) - BEAR: Benchmarking and Enhancing Multimodal Language Models for Atomic Embodied Capabilities [61.173773299032746]
身体能力とは、エージェントが物理的世界を理解し、理解し、相互作用する一連の基本的な能力を指す。
我々は,原子エンボディド能力のMLLMを評価する,包括的できめ細かなベンチマークであるBEARを紹介する。
BEARは、低レベルポインティング、軌跡理解、空間的推論、高レベルプランニングといったタスクを含む、14のドメインにまたがる4,469のインターリーブイメージビデオテキストエントリで構成されている。
我々は,MLLM知覚,3D理解,計画能力を強化するために,事前学習された視覚モデルを統合するマルチモーダル・コンバータブルエージェントであるBEAR-Agentを提案する。
論文 参考訳(メタデータ) (2025-10-09T19:18:36Z) - REVELIO -- Universal Multimodal Task Load Estimation for Cross-Domain Generalization [2.689067085628911]
本稿では,実世界のゲームアプリケーションを用いて,認知負荷検出ベンチマークを拡張したマルチモーダルデータセットを提案する。
タスク負荷アノテーションは、客観的なパフォーマンス、主観的なNASA-TLX評価、タスクレベルの設計から派生している。
xLSTM、ConvNeXt、Transformerアーキテクチャを含む最先端のエンドツーエンドモデルは、体系的にトレーニングされ、評価される。
論文 参考訳(メタデータ) (2025-09-01T17:36:09Z) - Holistic Evaluation of Multimodal LLMs on Spatial Intelligence [81.2547965083228]
空間情報を用いたマルチモーダルLLMの総合評価のためのEASIを提案する。
われわれはこの調査を8つの主要なベンチマークで実施し、総トークン数は100億を超えている。
実験により、GPT-5は空間知能(SI)において前例のない強みを示すが、(2)多種多様なSIタスクにおいて人的性能に欠けることが明らかとなった。
論文 参考訳(メタデータ) (2025-08-18T17:55:17Z) - StarDojo: Benchmarking Open-Ended Behaviors of Agentic Multimodal LLMs in Production-Living Simulations with Stardew Valley [17.706348191734822]
我々は、AIエージェントをオープンなプロダクションライビングシミュレーションで評価するための新しいベンチマークであるStarDojoを紹介した。
StarDojoは、農業、工芸、探検、戦闘、社会的相互作用の5つの主要な領域で、精巧に訓練されたタスクを1000個備えている。
効率的なモデル評価のための100個の代表タスクのコンパクトなサブセットを提供する。
論文 参考訳(メタデータ) (2025-07-10T05:48:28Z) - REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites [9.58858258192147]
実世界のWebサイトの決定論的シミュレーションにおけるマルチターンエージェント評価のためのベンチマークおよびフレームワークであるREALを紹介する。
また、日々の複雑なユーザインタラクションを反映した112の実践的なタスクからなるベンチマークもリリースしています。
我々のフレームワークは、新しいタスクの容易な統合、再現可能な評価、スケーラブルな後学習データ生成をサポートします。
論文 参考訳(メタデータ) (2025-04-15T18:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。