論文の概要: EBench: Elemental Diagnosis of Generalist Mobile Manipulation Policies
- arxiv url: http://arxiv.org/abs/2606.18239v1
- Date: Tue, 16 Jun 2026 17:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.594764
- Title: EBench: Elemental Diagnosis of Generalist Mobile Manipulation Policies
- Title(参考訳): EBench: 汎用モバイル操作ポリシの要素診断
- Authors: Ning Gao, Jinliang Zheng, Xing Gao, Haoxiang Ma, Hanqing Wang, Yukai Wang, Jiantong Chen, Zanxin Chen, Shujie Zhang, Mingda Jia, Xuekun Jiang, Zihou Zhu, Xinyu Li, Shuai Wang, Hao Li, Wenzhe Cai, Yuqiang Yang, Xudong Xu, Zhaoyang Lyu, Yao Mu, Tai Wang, Jiangmiao Pang, Jia Zeng, Weinan Zhang, Chunhua Shen,
- Abstract要約: 本稿では,一般のモバイル操作ポリシーを診断するシミュレーションベンチマークであるEBenchを紹介する。
EBenchは5つの能力次元と4つの一般化次元に沿ってアノテートされた26の多様で挑戦的な操作タスクで構成されている。
- 参考スコア(独自算出の注目度): 92.63011025295123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present EBench, a simulation benchmark that diagnoses generalist mobile manipulation policies beyond a single success-rate scalar. EBench comprises 26 diverse and challenging manipulation tasks annotated along 5 capability dimensions and 4 generalization dimensions. We evaluate state-of-the-art generalist manipulation models including $π_0$, $π_{0.5}$, XVLA, and InternVLA-A1, and reveal that models with near success rates exhibit strikingly different capability profiles: $π_{0.5}$ achieves the highest test success rate and the best train--test retention, whereas InternVLA-A1 dominates mobile manipulation but collapses on dexterous tasks, and XVLA exhibits strengths on a disjoint set of atomic skills compared to other policies. Beyond capability profiling, EBench analyzes the generalization ability from 4 representative perspectives, identifying the impact of different distribution shift factors. The results reveal strengths and weaknesses of models behind an overall score. We hope this benchmark offers a broad set of diagnostic signals to guide iteration on generalist manipulation models.
- Abstract(参考訳): EBenchは、一般的なモバイル操作ポリシーを単一の成功率スカラーを超えて診断するシミュレーションベンチマークである。
EBenchは5つの能力次元と4つの一般化次元に沿ってアノテートされた26の多様で挑戦的な操作タスクで構成されている。
π_0$, $π_{0.5}$, XVLA, InternVLA-A1といった最先端のジェネラリスト操作モデルを評価し, ほぼ成功率のモデルでは, 高いテスト成功率と最高のトレイン-テスト保持率を達成でき, 一方, InternVLA-A1は移動操作を支配しているが, 器用なタスクでは崩壊する。
能力プロファイル以外にも、EBenchは4つの代表的な視点から一般化能力を分析し、異なる分布シフト要因の影響を特定する。
結果は、全体的なスコアの背後にあるモデルの長所と短所を明らかにします。
このベンチマークは、一般的な操作モデルの反復をガイドする幅広い診断信号を提供してくれることを願っている。
関連論文リスト
- X-DiffVLA: X-Embodied Diffusion Action Heads for Vision-Language-Action Models [39.033717938466246]
本稿では,X-DiffVLA(拡散型VLAモデル)を提案する。
X-DiffVLAは拡散モデルの生成的強度を利用して、クロスボディーデータセットの多様性と潜時相関をキャプチャすることができる。
X-DiffVLAは,それぞれ15.3%,12.5%の改善が得られた。
論文 参考訳(メタデータ) (2026-05-24T12:41:34Z) - Invisible Influences: Investigating Implicit Intersectional Biases through Persona Engineering in Large Language Models [4.145971099162064]
大型言語モデル(LLM)は人間の言語生成に優れるが、しばしば暗黙の交叉バイアスを埋めて増幅する。
既存のバイアス監査は、絶対結合強度を定量化する静的な埋め込みベースのテスト(CEAT、I-WEAT、I-SEAT)に依存している。
本稿では,Bias Amplification Differential and Explainability Score(BADx)を紹介する。
論文 参考訳(メタデータ) (2026-03-16T15:57:12Z) - From Detection to Diagnosis: Advancing Hallucination Analysis with Automated Data Synthesis [7.3390265169910665]
LLM(Large Language Models)における幻覚は、重要なドメインへの信頼性の高いデプロイにおける中核的な障害である。
この限界に対処するため、新たな研究パラダイムが提案され、"検出"から"診断"へと移行した。
論文 参考訳(メタデータ) (2025-12-31T05:06:35Z) - GRAPE: Generalizing Robot Policy via Preference Alignment [58.419992317452376]
GRAPE: 優先度アライメントによるロボット政策の一般化について述べる。
GRAPEはドメイン内および未確認操作タスクにおける成功率をそれぞれ51.79%、58.20%向上させる。
GRAPEは安全性や効率、衝突速度の37.44%、ロールアウト長さの11.15%といった様々な目標に合わせることができる。
論文 参考訳(メタデータ) (2024-11-28T18:30:10Z) - xLAM: A Family of Large Action Models to Empower AI Agent Systems [111.5719694445345]
AIエージェントタスク用に設計された大規模なアクションモデルであるxLAMをリリースする。
xLAMは、複数のエージェント能力ベンチマークで例外的なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-05T03:22:22Z) - How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary
Investigation [90.93999543169296]
GPT-4Vは最も先進的な多モード基盤モデルとして機能する。
本研究は, GPT-4Vの動的環境における適応性と一般化能力について, 厳密に評価する。
論文 参考訳(メタデータ) (2023-12-12T16:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。