論文の概要: Skill-3D: Evolving Scene-Aware Skills for Agentic 3D Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2606.07436v2
- Date: Thu, 11 Jun 2026 06:13:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 13:39:59.489938
- Title: Skill-3D: Evolving Scene-Aware Skills for Agentic 3D Spatial Reasoning
- Title(参考訳): Skill-3D:エージェント3次元空間推論のためのシーン認識スキルの進化
- Authors: Haoyuan Li, Zhengdong Hu, Jun Wang, Hehe Fan, Yi Yang,
- Abstract要約: 既存の手法は、しばしばツールを誤用し、3Dシナリオ下で偏りのあるツールの好みを示す。
本研究では,自己進化型シーン認識スキルを学習するフレームワークであるSkill-3Dを提案する。
実験により,Skill-3Dは3次元空間推論におけるツール利用を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 41.24574881549564
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper explores agentic 3D spatial understanding, i.e., MLLM agents performing 3D reasoning through tool use. Existing methods often misuse tools and exhibit biased tool preferences under 3D scenarios, leaving the agentic paradigm with only marginal gains over non-agentic strategies. We reveal that 3D spatial reasoning tasks are heterogeneous across scenes, while these agents apply a uniform tool-use strategy to all scenes rather than selecting tools according to the specific scene and task. To address this, we propose Skill-3D, a framework that learns self-evolving scene-aware skills. Specifically, Skill-3D identifies the task scene and records the agent's tool-use trajectory into a Scene Memory, where successful trajectories from similar scenes are aggregated and distilled into a reusable scene-aware skill, with failed ones attached to the skill as lessons. During training, once a similar scene recurs, the corresponding skill is injected to guide the agent, producing new trajectories whose successes and failures further refine the skill, forming a loop in which the memory and the skill library co-evolve. Experiments show that Skill-3D substantially improves tool utilization in 3D spatial reasoning (from 39% to 78% on VSI-Bench), driving the agent toward correct and sufficient tool use. For instance, it improves Gemini-3-Flash by 67% on MMSI-Bench. Furthermore, we conduct agentic post-training over skill-guided trajectories, which boosts Qwen3-VL-8B by 60% on VSI-Bench.
- Abstract(参考訳): 本稿では,3次元の空間的理解,すなわち3次元推論を行うMLLMエージェントについて検討する。
既存の手法は、しばしばツールを誤用し、3Dシナリオ下で偏りのあるツールの好みを示し、エージェントパラダイムは非エージェント戦略よりも限界的な利得しか残らない。
本研究では3次元空間推論タスクがシーン間で異質であることを明らかにする一方,これらのエージェントは特定のシーンやタスクに応じてツールを選択するのではなく,すべてのシーンに統一的なツール利用戦略を適用する。
そこで我々は,自己進化型シーン認識スキルを学習するフレームワークであるSkill-3Dを提案する。
具体的には、Skill-3Dは、タスクシーンを特定し、エージェントのツール使用軌跡をシーンメモリに記録する。
トレーニング中、同様のシーンが再帰すると、対応するスキルを注入してエージェントを誘導し、成功と失敗を更に改善する新たなトラジェクトリを生成し、メモリとスキルライブラリが共進化するループを形成する。
実験の結果,Skill-3Dは3次元空間推論におけるツール利用を著しく改善し(VSI-Benchでは39%から78%),適切なツール使用に向けてエージェントを駆動することがわかった。
例えば、MMSI-BenchではGemini-3-Flashを67%改善している。
さらに,Qwen3-VL-8BをVSI-Bench上で60%向上させる技術誘導軌道上でのエージェント訓練を行った。
関連論文リスト
- Flame3D: Zero-shot Compositional Reasoning of 3D Scenes with Agentic Language Models [6.943087230186317]
3Dシーンの理解は、自由空間、オブジェクトの接地、仮説的なオブジェクト挿入、複雑な幾何学的関係、これら全てを外部ツールやデータソースと統合する。
3次元言語学習を動機づける広義の一般化は,3次元特化学習を伴わずに,推論時に達成できると論じる。
本研究では,シーンを編集可能な3Dメモリとして表現する学習自由フレームワークFlame3Dを提案する。
論文 参考訳(メタデータ) (2026-05-09T23:35:27Z) - 3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks [19.026406684039006]
近年の研究では、RGB画像、言語命令、共同空間制御のマッピングを微調整して学習する大規模視覚言語モデルが実証されている。
本研究では,近年普及しているビジョン・ランゲージ・アクション・モデルにおいて,シーンコンテキストの認識を改善する手法について検討する。
提案モデルである3D-CAVLAは, LIBEROタスクスイート全体の成功率を改善し, 平均成功率98.1$%を達成している。
論文 参考訳(メタデータ) (2025-05-09T05:32:40Z) - SplatTalk: 3D VQA with Gaussian Splatting [13.211810095081159]
言語誘導型3Dシーン理解は、ロボット工学、AR/VR、人間とコンピュータの相互作用における応用を進める上で重要である。
SplatTalkは,3次元ガウススティング(3DGS)フレームワークを用いて,事前学習したLSMへの直接入力に適した3次元トークンを生成する手法である。
論文 参考訳(メタデータ) (2025-03-08T16:31:48Z) - Agent3D-Zero: An Agent for Zero-shot 3D Understanding [79.88440434836673]
Agent3D-Zeroは、3Dシーン理解に対処する革新的な3D対応エージェントフレームワークである。
本稿では,3次元理解のための視点を積極的に選択し,分析することで,VLM(Large Visual Language Model)を利用する新しい手法を提案する。
Agent3D-Zeroの独特な利点は、新しい視覚的プロンプトの導入である。
論文 参考訳(メタデータ) (2024-03-18T14:47:03Z) - Never-Ending Behavior-Cloning Agent for Robotic Manipulation [38.756955029068294]
NBAgentは言語条件のNever-ending Behavior-cloning Agentである。
新しい3Dシーンセマンティクスとロボット操作スキルの観察知識を、スキル共有とスキル固有属性から学習する。
論文 参考訳(メタデータ) (2024-03-01T07:51:29Z) - CLIP goes 3D: Leveraging Prompt Tuning for Language Grounded 3D
Recognition [67.85902382734521]
CG3D(CLIP Goes 3D)と呼ばれる新しいフレームワークを提案する。
我々は、事前学習したCG3Dフレームワークを広範囲にテストし、ゼロショット、オープンシーン理解、検索タスクにおいてその印象的な能力を実証した。
論文 参考訳(メタデータ) (2023-03-20T17:52:24Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。