Fugu-MT 論文翻訳(概要): Benchmarking Vision-Language-Action Models on SO-101: Failure and Recovery Analysis

論文の概要: Benchmarking Vision-Language-Action Models on SO-101: Failure and Recovery Analysis

arxiv url: http://arxiv.org/abs/2606.08881v2
Date: Thu, 11 Jun 2026 21:42:22 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-15 13:53:03.486384
Title: Benchmarking Vision-Language-Action Models on SO-101: Failure and Recovery Analysis
Title（参考訳）: SO-101のビジョン・ランゲージ・アクションモデルのベンチマーク:故障と回復解析
Authors: Yi Yu, Xinchuan Qiu,
Abstract要約: VLA(Vision-Language-Action)モデルは、ロボット操作において強力な一般化を示している。我々は,低コストなSO-101ロボットプラットフォーム上で,代表的VLAと模倣学習ポリシーを評価するための標準化された実世界ベンチマークを提案する。
参考スコア（独自算出の注目度）: 9.340058165047717
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language-Action (VLA) models have demonstrated strong generalization in robotic manipulation, yet existing evaluations are primarily conducted in simulation or on expensive robotic platforms, leaving their robustness on affordable real-world robots largely unexplored. We present a standardized real-world benchmark for evaluating representative VLA and imitation learning policies on the low-cost SO-101 robotic platform. The benchmark comprises four representative manipulation tasks together with unified evaluation protocols, enabling systematic comparison under embodiment uncertainty. Using real-world teleoperated demonstrations, we fine-tune and evaluate $π_{0.5}$, SmolVLA, Wall-X, and ACT directly on the physical platform. Beyond conventional task success rates, the benchmark incorporates a structured failure taxonomy, semantic- and execution-level failure decomposition, and recovery-aware evaluation metrics to characterize policy robustness. Experimental results show that stronger pretrained VLA policies generally outperform the imitation learning baseline, although performance remains highly task-dependent under low-cost robotic deployment conditions. Execution instability emerges as the dominant failure source, while recovery capability varies substantially across architectures. These results highlight the importance of failure and recovery analysis beyond binary task success and establish SO-101 as a practical benchmark for evaluating embodied AI systems under realistic low-cost robotic deployment conditions.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルはロボット操作において強力な一般化を示しているが、既存の評価は主にシミュレーションや高価なロボットプラットフォームで行われる。我々は,低コストなSO-101ロボットプラットフォーム上で,代表的VLAと模倣学習ポリシーを評価するための標準化された実世界ベンチマークを提案する。このベンチマークは、4つの代表操作タスクと統一評価プロトコルから構成され、実施の不確実性の下で体系的な比較を可能にする。実世界の遠隔操作デモを用いて, 物理的プラットフォーム上で直接, π_{0.5}$, SmolVLA, Wall-X, ACTを微調整し, 評価する。従来のタスク成功率以外にも、このベンチマークには、構造化された障害分類、セマンティックおよび実行レベルの障害分解、そしてポリシーの堅牢性を特徴づけるためのリカバリ対応評価指標が組み込まれている。実験結果から, ロボット配置条件下での作業依存度は高いが, より強い事前訓練型VLAポリシは, 模倣学習ベースラインを上回っていることが明らかとなった。実行不安定が主流の障害源として現れ、リカバリ能力はアーキテクチャによって大きく異なる。これらの結果は、二元的タスクの成功を超える障害と回復分析の重要性を強調し、現実的な低コストなロボット配置条件下で実施されたAIシステムを評価するための実践的なベンチマークとしてSO-101を確立する。

関連論文リスト

RePO-VLA: Recovery-Driven Policy Optimization for Vision-Language-Action Models [90.39703013636868]
RePO-VLAは、リカバリ駆動のポリシー最適化フレームワークである。成功、回復、失敗の軌跡に異なる役割を割り当てる。対人的な成功は、平均で20%から75%、実世界の規模で80%まで上昇する。
論文参考訳（メタデータ） (2026-05-10T08:24:05Z)
Unmasking the Illusion of Embodied Reasoning in Vision-Language-Action Models [28.981226513192535]
最近のVision-Language-Action(VLA)モデルでは、標準的なロボットベンチマークで顕著な成功率が報告されている。最近の証拠は、標準ベンチマークの成功と真の具体的推論の体系的な不一致を示唆している。本稿では,ロボットポリシーにおける真の身体的推論の診断ベンチマークであるBeTTERを紹介する。
論文参考訳（メタデータ） (2026-04-20T09:25:30Z)
ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation [66.02142169323521]
Vision-Language-ActionモデルとWorld Modelは最近、汎用ロボットインテリジェンスのための有望なパラダイムとして登場した。既存のベンチマークは、主にシミュレータ中心であり、制御性を提供するが、知覚ノイズによって引き起こされる現実のギャップを捉えることができない。シミュレーションと実世界の実行を橋渡しする標準化された評価フレームワークであるManipArenaを紹介する。
論文参考訳（メタデータ） (2026-03-30T15:06:41Z)
Rethinking Visual-Language-Action Model Scaling: Alignment, Mixture, and Regularization [65.37179698521766]
VLA(Vision-Language-Action)モデルは、ジェネラリストロボットの制御を強く約束する。標準的な「スケールデータ」レシピがロボット工学に翻訳されるかどうかはまだ不明だ。本稿では,多様なロボットを対象とした事前学習のためのコアトレーニング選択を再考する,VLAスケーリングの体系的かつ制御された研究を提案する。
論文参考訳（メタデータ） (2026-02-10T12:25:43Z)
Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文参考訳（メタデータ） (2026-02-04T05:37:09Z)
SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models [42.89413870143421]
VLA(Vision-Language-Action)モデルはロボット操作に優れるが、専門家によるデモンストレーションに大きく依存している。グループベースの最適化手法を含む現在のVLA-RL法は、深刻な報酬の分散によって損なわれている。本稿では,新しいVLA-RLフレームワークである自己参照ポリシー最適化(SRPO)を提案する。
論文参考訳（メタデータ） (2025-11-19T16:52:23Z)
Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。 Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文参考訳（メタデータ） (2025-10-30T11:53:08Z)
RobotArena $\infty$: Scalable Robot Benchmarking via Real-to-Sim Translation [47.79800816696372]
操作ポリシーの現実的なテストは、大規模に労働集約的で、再現が難しい。既存のシミュレーションベンチマークも同様に制限されており、同じ合成ドメイン内でポリシーをトレーニングおよびテストしている。本稿では,VLA評価を大規模にシミュレーションした拡張環境に移行することで,これらの課題を克服する新しいベンチマークフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-27T17:41:38Z)
From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation [35.79160868966466]
FSD(From Seeing to Doing)は空間関係推論により中間表現を生成する新しい視覚言語モデルである。提案手法は,空間座標を視覚信号と整列する自己整合性機構と,階層的なデータパイプラインを併用する。我々は、FSDがSimplerEnvで40.6%の成功率、実世界の8つのタスクで72%の成功率を達成したことを示し、最強のベースラインを30%上回った。
論文参考訳（メタデータ） (2025-05-13T13:20:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。