論文の概要: MANGO: Automated Multi-Agent Test Oracle Generation for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2606.24815v1
- Date: Tue, 23 Jun 2026 17:00:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.108277
- Title: MANGO: Automated Multi-Agent Test Oracle Generation for Vision-Language-Action Models
- Title(参考訳): MANGO:ビジョンランゲージ・アクションモデルのための自動マルチエージェントテストOracle生成
- Authors: Pablo Valle, Shaukat Ali, Aitor Arrieta, Lionel Briand,
- Abstract要約: VLA対応ロボットの既存のテストアプローチは、手動で構築されたシンボリックテストオラクルに依存している。
本稿では,自然言語記述から細粒度を自動生成するマルチエージェントフレームワークMANGOを紹介する。
We evaluate MANGO on the LIBERO_10 and RoboCasa Humanoid benchmarks。
- 参考スコア(独自算出の注目度): 9.988404944720715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models are emerging robotic control systems that integrate perception, language understanding, and action generation in a unified architecture. Existing testing approaches for VLA-enabled robots rely on manually constructed symbolic test oracles that determine task success from final environment states. These oracles are costly to construct, require domain expertise, and are often tightly coupled to specific tasks and environments, limiting scalability and reuse. Furthermore, they provide only end-state assessments of task outcomes, offering limited insight into intermediate behavior and fault localization. To address these limitations, we introduce MANGO, a multi-agent framework that automatically generates fine-grained oracles from natural-language descriptions of robotic tasks. MANGO first generates a reusable library of atomic tasks, then generates simulator-grounded oracle definitions for each atomic task, and finally produces executable fine-grained oracles by decomposing complex instructions into ordered sequences of atomic actions and corresponding oracles. The framework uses collaborative Generator, Assessor, and Judge agents that iteratively refine generated artifacts through structured feedback. We evaluate MANGO on the LIBERO_10 and RoboCasa Humanoid Tabletop benchmarks. Results show that MANGO generates executable, fine-grained oracles that detect a similar number of failures as symbolic oracles while accurately localizing them and providing richer diagnostic information. Through ablation studies, we further analyzed component contributions and the effect of initial task set, while preserving oracle quality. Overall, the results show the feasibility and effectiveness of test oracle generation for VLA-enabled robots testing.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、認識、言語理解、行動生成を統合アーキテクチャで統合したロボット制御システムである。
VLA対応ロボットの既存のテストアプローチは、最終環境状態からタスク成功を決定するための手動で構築されたシンボリックテストオラクルに依存している。
これらのオラクルは、構築にコストがかかり、ドメインの専門知識が必要であり、しばしば特定のタスクや環境と密結合し、スケーラビリティと再利用を制限します。
さらに、それらはタスク結果のエンドステートアセスメントのみを提供し、中間動作と障害局所化に関する限られた洞察を提供する。
これらの制約に対処するために,ロボットタスクの自然言語記述から細粒度を自動生成するマルチエージェントフレームワークMANGOを導入する。
MANGOはまず、再利用可能な原子タスクのライブラリを生成し、次に、各原子タスクに対してシミュレータ基底のオラクル定義を生成し、最後に、複雑な命令を順序付けられた原子アクションと対応するオラクルのシーケンスに分解することで、実行可能な微粒のオラクルを生成する。
このフレームワークは、構造化されたフィードバックを通じて生成したアーティファクトを反復的に洗練するコラボレーティブジェネレータ、アセッサ、およびジャッジエージェントを使用する。
We evaluate MANGO on the LIBERO_10 and RoboCasa Humanoid Tabletop benchmarks。
その結果、MANGOは、正確な局所化を行い、よりリッチな診断情報を提供しながら、シンボリックオラクルと同じような数の障害を検出する、実行可能できめ細かなオラクルを生成することがわかった。
アブレーション研究を通じて,オラクルの品質を保ちながら,コンポーネントのコントリビューションと初期タスクセットの効果をさらに分析した。
以上の結果から,VLA対応ロボット実験におけるテストオラクル生成の可能性と有効性を示した。
関連論文リスト
- Metamorphic Testing of Vision-Language Action-Enabled Robots [12.232630336816463]
本稿では,VLA(Vision-Language-Action)モデルにおけるテストオラクル問題を軽減するため,メタモルフィックテスト(MT)を提案する。
5つのVLAモデル、2つの模擬ロボット、4つのロボットタスクを含む実証研究は、MTがテストオラクル問題を効果的に緩和できることを示している。
論文 参考訳(メタデータ) (2026-02-26T03:32:43Z) - Experience-Driven Multi-Agent Systems Are Training-free Context-aware Earth Observers [27.817039954088315]
ツールレベルの専門知識を学習するための自己進化型マルチエージェントシステムである textbfGeoEvolver を紹介する。
GeoEvolverはエンドツーエンドのタスクの成功を継続的に改善し、複数のバックボーンで平均12%向上することを示す。
論文 参考訳(メタデータ) (2026-01-30T15:11:07Z) - RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation [59.9896841079005]
長距離ロボット操作における高レベル推論評価のためのベンチマークであるRoboCerebraを紹介する。
データセットはトップダウンパイプラインを通じて構築され、GPTはタスク命令を生成し、それらをサブタスクシーケンスに分解する。
以前のベンチマークと比較すると、RoboCerebraはアクションシーケンスが大幅に長く、アノテーションがより密度が高い。
論文 参考訳(メタデータ) (2025-06-07T06:15:49Z) - Large Language Models for Orchestrating Bimanual Robots [19.60907949776435]
本稿では,Language-based Bimanual Orchestration (LABOR)を提案する。
NICOLヒューマノイドロボットを用いた2種類の長距離作業のシミュレーション実験により,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-02T15:08:35Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。