論文の概要: Guava: An Effective and Universal Harness for Embodied Manipulation
- arxiv url: http://arxiv.org/abs/2606.18363v1
- Date: Tue, 16 Jun 2026 18:09:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.835885
- Title: Guava: An Effective and Universal Harness for Embodied Manipulation
- Title(参考訳): Guava: 身体操作のための効果的で普遍的なハーネス
- Authors: Haowen Liu, Xirui Li, Shaoxiong Yao, Peng Shi, Tianyi Zhou, Jia-Bin Huang, Furong Huang, Jiayuan Mao,
- Abstract要約: 実装された操作能力を4Bオープンソースモデルに蒸留するエンドツーエンドのトレーニングパイプラインを開発した。
結果は、よく設計されたハーネスが、エンボディド操作のためのスケーラブルでモデルに依存しないインターフェースとして機能することを示唆している。
- 参考スコア(独自算出の注目度): 74.34187069605844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models trained on large-scale vision-language data have demonstrated strong potential for embodied agents. Harnessing models through embodied tools use offers a promising alternative to end-to-end vision-language-action systems by combining high-level reasoning with external modules for perception, planning, and control. However, it remains unclear what makes an effective harness for embodied manipulation, and to what extent such a harness can unlock embodied capabilities in a wide range of reasoning models. In this work, we present Guava, a harness framework for embodied tool use developed through systematic exploration of the design space of agent workflows, action spaces, and observation spaces. Our study identifies three key ingredients for effective embodied agents: iterative perception-reasoning-action loops, semantic action abstractions, and multimodal observations. To understand whether these design principles are universal even to small models, we develop an end-to-end training pipeline that distills embodied manipulation capabilities into a 4B open-source model using fewer than 2K trajectories collected entirely in simulation. Experimental results in both simulation and real-world environments show performance comparable to frontier proprietary models while exhibiting strong generalization to unseen objects, novel instructions, and long-horizon tasks. Results suggest that a well-designed harness can serve as a scalable, model-agnostic interface for embodied manipulation, enabling strong emergent embodied capabilities in compact open-source models with minimal training data.
- Abstract(参考訳): 大規模視覚言語データに基づいて訓練された言語モデルは、エンボディエージェントの強い可能性を示している。
具体的ツールを使ってモデルを調和させることは、知覚、計画、制御のために高レベルな推論と外部モジュールを組み合わせることで、エンドツーエンドの視覚言語アクションシステムに代わる有望な代替手段を提供する。
しかし, 具体的操作の有効活用方法や, 広範囲の推論モデルにおいて, どの程度の精度で具体的操作を解き放つことができるのかは, いまだ不明である。
本研究では,エージェント・ワークフロー,アクション・スペース,観察空間の設計空間を体系的に探索し,ツール・ユースを具体化するためのフレームワークGuavaを紹介する。
本研究は, 反復的知覚反応ループ, セマンティック・アクション・抽象化, マルチモーダル・オブザーバという, 効果的なエンボディード・エージェントの3つの重要な要素を同定した。
これらの設計原則が小さなモデルであっても普遍的であるかどうかを理解するため、我々は、完全にシミュレーションで収集された2Kトラジェクトリ未満のトラジェクトリを用いて、エンボディ化された操作能力を4Bオープンソースモデルに蒸留するエンドツーエンドのトレーニングパイプラインを開発した。
シミュレーションと実世界の両方の環境での実験結果は、フロンティアのプロプライエタリなモデルに匹敵する性能を示しながら、見えないオブジェクト、新しい命令、長い水平タスクへの強力な一般化を示している。
結果として、十分に設計されたハーネスは、エンボディド操作のためのスケーラブルでモデルに依存しないインターフェースとして機能し、最小限のトレーニングデータを持つコンパクトなオープンソースモデルにおいて、強力な創発的エンボディド機能を実現することが示唆された。
関連論文リスト
- HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents [71.09493646932046]
本稿では,実世界のエンボディエージェントに特化して設計された基礎モデルのファウンデーションモデルであるHY-Embodied-0.5を紹介する。
HY-Embodied-0.5スイートは、エッジ配置用に設計された2Bアクティベートパラメータを持つ効率的なモデルと、複雑な推論をターゲットとした32Bアクティベートパラメータを持つ強力なモデルである。
私たちのMoT-2Bモデルは16ベンチマークで同等の大きさの最先端モデルより優れていますが、32BはGemini 3.0 Proのようなフロンティアモデルに匹敵するパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2026-04-08T17:59:48Z) - Beyond Language Modeling: An Exploration of Multimodal Pretraining [125.34714978184638]
我々は、制御されたオフスクラッチ事前学習実験を通して経験的明瞭度を提供する。
我々はトランスフュージョン・フレームワークを採用し、言語と視覚の拡散を次々に予測する。
我々は、MoEアーキテクチャが、言語によって要求される高いモデル容量を提供することにより、このスケーリング非対称性を調和させることを実証する。
論文 参考訳(メタデータ) (2026-03-03T18:58:00Z) - Activation Space Interventions Can Be Transferred Between Large Language Models [0.5541644538483947]
モデル間での安全介入は、共有活性化空間の学習されたマッピングを通して伝達可能であることを示す。
このアプローチは、バックドアの除去と有害なプロンプトの拒絶という、確立された2つのAI安全タスクに対して実証する。
また、バックドアに関連付けられた知識を組み込むために、モデルに微調整を施した新しいタスク、textitcorrupted機能を提案する。
論文 参考訳(メタデータ) (2025-03-06T13:38:44Z) - LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。
このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。
本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文 参考訳(メタデータ) (2024-04-03T23:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。