論文の概要: VoLo: A Physical Orchestrator for Open-Vocabulary Long-Horizon Manipulation
- arxiv url: http://arxiv.org/abs/2606.07723v1
- Date: Fri, 05 Jun 2026 16:21:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 13:52:26.406343
- Title: VoLo: A Physical Orchestrator for Open-Vocabulary Long-Horizon Manipulation
- Title(参考訳): VoLo:オープン語彙長軸操作のための物理オーケストレータ
- Authors: Siyi Chen, Hugo Hadfield, Alex Zook, Mikaela Angelina Uy, Chan Hee Song, Erwin Coumans, Xuning Yang, Faisal Ladhak, Qing Qu, Stan Birchfield, Jonathan Tremblay, Valts Blukis,
- Abstract要約: オープンボキャブラリのロングホライゾン操作では、ロボットが柔軟な指示や複雑な多目的シーンを推論する必要がある。
本稿では,VLMが異種ロボット機能を中断可能なツールとしてオーケストレーションするクローズドエージェントループを用いて,これらの要求に対処する。
本稿では,VLA/WAMを中間ロールアウト時の中断可能なツールとして扱うことで,VLMの計画,監視,回復を行うVoLoAgentを提案する。
- 参考スコア(独自算出の注目度): 32.23131310342716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary long-horizon manipulation requires robots to reason over flexible instructions and complex multi-object scenes while adaptively planning, executing, monitoring, and recovering from failures. We address these demands with a closed agent loop in which a VLM orchestrates heterogeneous robot capabilities as interruptible tools. Unlike in virtual AI agents, the timing of decisions, actions and tool calls is important in a physical world that does not pause for reasoning. We refer to this setting as Physical Orchestration, and propose VoLoAgent, a VLM that plans, monitors, and recovers by treating a VLA/WAM as an interruptible tool it steers mid-rollout alongside vision models and action primitives. To evaluate these long-horizon capabilities, we introduce RoboVoLo, a high-fidelity benchmark for open-vocabulary long-horizon manipulation across common sense, memory/state tracking, complex references, and world knowledge, with both task-level success and failure-mode diagnostics. Experiments show VoLoAgent substantially outperforms single VLA/VLM or tool-based systems, with validation on real-robot experiments. Project page: https://chicychen.github.io/VoLo/
- Abstract(参考訳): オープンボキャブラリのロングホライゾン操作では、ロボットが適応的に計画、実行、監視、障害からの回復をしながら、柔軟な指示や複雑なマルチオブジェクトシーンを推論する必要がある。
本稿では,VLMが異種ロボット機能を中断可能なツールとしてオーケストレーションするクローズドエージェントループを用いて,これらの要求に対処する。
仮想AIエージェントとは異なり、意思決定、アクション、ツールコールのタイミングは、推論のために一時停止しない物理的な世界で重要である。
本稿では、この設定を物理オーケストレーションと呼び、VLA/WAMを視覚モデルやアクションプリミティブと共に中間ロールアウトする中断可能なツールとして扱うことで、計画、監視、回復を行うVLMであるVoLoAgentを提案する。
このような長期的機能を評価するために,タスクレベルの成功と障害モード診断の両方を伴って,メモリ/状態追跡,複雑な参照,世界知識などを含む,オープンな語彙的長期的操作のための高忠実度ベンチマークであるRoboVoLoを導入する。
実験では、VoLoAgentは単一のVLA/VLMまたはツールベースのシステムよりも大幅に優れており、実際のロボット実験で検証されている。
プロジェクトページ: https://chicychen.github.io/VoLo/
関連論文リスト
- Sentinel-VLA: A Metacognitive VLA Model with Active Status Monitoring for Dynamic Reasoning and Error Recovery [62.75419724651416]
textbfSentinel-VLAは,リアルタイム実行状況を監視するアクティブセンチネルモジュールを備えたメタ認知型VLAモデルである。
すべてのトレーニングデータは、設計したパイプラインを通じて自動生成され、注釈付けされます。
実世界の実験では、Sentinel-VLAはSOTAモデルであるPI0と比較してタスク成功率を30%以上向上することを示した。
論文 参考訳(メタデータ) (2026-05-02T02:10:54Z) - Critic in the Loop: A Tri-System VLA Framework for Robust Long-Horizon Manipulation [5.339854280045898]
Critic in the Loopは動的VLM-Expertスケジューリングによって駆動される適応的階層型フレームワークである。
中心となるのは、グローバル推論のためのVLM脳、リアクティブ実行のためのVLA小脳、軽量な視覚的批判を含む、バイオニックなTri-Systemアーキテクチャである。
我々のアーキテクチャは、人間にインスパイアされたルールをシームレスに統合し、無限の再試行ループを直感的に破る。
論文 参考訳(メタデータ) (2026-03-05T13:55:33Z) - NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning [36.20611975009607]
クローズドループVLMとビデオプランニングを統合した階層型フレームワークであるNovaPlanを紹介する。
高いレベルでは、VLMプランナーはタスクをサブゴールに分解し、クローズドループでロボットの実行を監視する。
低レベルのロボット動作を計算するために,タスク関連オブジェクトキーポイントと人手ポーズの両方を抽出し,活用する。
論文 参考訳(メタデータ) (2026-02-23T18:35:18Z) - AgenticLab: A Real-World Robot Agent Platform that Can See, Think, and Act [27.922630781100864]
本稿では,モデルに依存しないロボットエージェントプラットフォームであるAgenticLabと,オープンワールド操作のためのベンチマークについて紹介する。
我々は、非構造環境における実ロボットタスクに最先端のVLMベースのエージェントをベンチマークする。
私たちのベンチマークでは、オフラインの視覚言語テストがキャプチャーに失敗するいくつかの障害モードが明らかになっている。
論文 参考訳(メタデータ) (2026-02-02T05:30:14Z) - LoLA: Long Horizon Latent Action Learning for General Robot Manipulation [38.209790870296835]
Long Horizon Latent Action Learning (LoLA)は、ロボット操作用に設計されたフレームワークである。
まず視覚言語モデルを用いて、歴史的シーケンスと多視点観測からリッチな文脈特徴を符号化する。
次に、視覚入力と言語コマンドを動作可能なロボットモーション空間に変換するステートアウェアラテント表現を導入する。
論文 参考訳(メタデータ) (2025-12-23T08:45:24Z) - DeepAgent: A General Reasoning Agent with Scalable Toolsets [111.6384541877723]
DeepAgentは、自律的な思考、ツール発見、アクション実行を実行するエンドツーエンドのディープ推論エージェントである。
長期にわたる相互作用の課題に対処するために,過去の相互作用を構造化エピソード,動作,ツール記憶に圧縮する自律的メモリ折り畳み機構を導入する。
LLMシミュレートされたAPIを活用し、ツール呼び出しトークンにきめ細かいクレジットを割り当てるツールコールアドバンテージ属性を適用した、エンドツーエンドの強化学習戦略であるToolPOを開発した。
論文 参考訳(メタデータ) (2025-10-24T16:24:01Z) - Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation [90.00687889213991]
複雑な長距離ロボット操作問題を解決するには、高度な高レベルの計画能力が必要である。
インターネット上で事前訓練された視覚言語モデル(VLM)は、原則としてそのような問題に対処するためのフレームワークを提供する。
本稿では,多段階操作タスクにおけるVLMの物理推論能力を高める新しいテストタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-23T20:42:15Z) - Wonderful Team: Zero-Shot Physical Task Planning with Visual LLMs [0.0]
Wonderful Teamは、ゼロショットでハイレベルなロボット計画を実行するためのフレームワークだ。
実世界のセマンティックおよび物理的計画タスクにおけるWonderful Teamのパフォーマンスは、しばしば別々のビジョンシステムに依存するメソッドを超えることが示される。
論文 参考訳(メタデータ) (2024-07-26T21:18:57Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs [140.14239499047977]
視覚言語モデル(VLM)は、論理的推論から視覚的理解に至るまで、様々なタスクにわたって印象的な能力を示している。
PIVOT(Prompting with Iterative Visual Optimization)と呼ばれる新しい視覚的プロンプト手法を提案する。
私たちのアプローチは、ロボットのトレーニングデータやさまざまな環境でのナビゲーション、その他の能力なしに、ロボットシステムのゼロショット制御を可能にします。
論文 参考訳(メタデータ) (2024-02-12T18:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。