論文の概要: A Practical Recipe Towards Improving Sim-and-Real Correlation for VLA Evaluation
- arxiv url: http://arxiv.org/abs/2606.10366v1
- Date: Tue, 09 Jun 2026 03:25:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.290052
- Title: A Practical Recipe Towards Improving Sim-and-Real Correlation for VLA Evaluation
- Title(参考訳): VLA評価におけるSim-and-Real相関の改善に向けた実践的準備
- Authors: Shuo Wang, Hanyuan Xu, Yingdong Hu, Fanqi Lin, Yang Gao,
- Abstract要約: シミュレーション評価は,政策ランキングの整合性,性能相関,摂動障害パターンの観点から,現実の結論を保っているかを検討する。
この分析により,既存のシミュレータの限界を特徴付けることができ,シミュレーション信号が現実世界の配置とより整合しているかを特定することができる。
- 参考スコア(独自算出の注目度): 13.439555106885491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simulation has become an essential tool for evaluating and improving vision-language-action (VLA) policies, offering scalable, reproducible, and controllable alternatives to costly real-world robot evaluation. Recent simulation benchmarks have made substantial progress on realism and diversity, yet these platforms have not been widely adopted as reliable proxies for real-world policy evaluation. In this work, we investigate this issue through the lens of sim-and-real correlation. We conduct a systematic study across multiple simulation platforms, VLA policies, tasks, and perturbation factors, measuring whether simulated evaluation preserves real-world conclusions in terms of policy ranking consistency, performance correlation, and perturbation-wise failure patterns. This analysis allows us to characterize the limitations of existing simulators and identify what kinds of simulation signals are more aligned with real-world deployment. We further examine how users should exploit simulation for policy improvement, including when simulator-based finetuning is beneficial and how the amount of post-training data affects sim-and-real alignment. Overall, our work provides a unified framework for measuring, interpreting, and improving the usefulness of simulation for VLA policies, offering guidance both for simulator designers and for practitioners who use simulation as part of the policy development pipeline.
- Abstract(参考訳): シミュレーションは視覚言語アクション(VLA)ポリシーの評価と改善に欠かせないツールとなり、スケーラブルで再現性があり、制御可能な代替手段を提供する。
最近のシミュレーションベンチマークでは、現実主義と多様性が大幅に進歩しているが、これらのプラットフォームは現実の政策評価のための信頼できるプロキシとして広く採用されていない。
本研究では,シム・アンド・リアル相関のレンズを用いてこの問題を考察する。
我々は、複数のシミュレーションプラットフォーム、VLAポリシー、タスク、摂動要因の体系的な研究を行い、シミュレートされた評価が現実の結論を保存するかどうかを、ポリシーランキングの整合性、性能相関、摂動障害パターンの観点から測定する。
この分析により,既存のシミュレータの限界を特徴付けることができ,シミュレーション信号が現実世界の配置とより整合しているかを特定することができる。
さらに,シミュレータベースの微調整が有効である場合や,ポストトレーニングデータの量がsim-and-realアライメントにどのように影響するかなど,ユーザが政策改善のためにシミュレーションを利用する方法についても検討する。
我々の研究は、VLAポリシーのシミュレーションを計測、解釈、改善するための統一的なフレームワークを提供し、シミュレーターデザイナーとポリシー開発パイプラインの一部としてシミュレーションを使用する実践者の両方にガイダンスを提供する。
関連論文リスト
- Toward Visually Realistic Simulation: A Benchmark for Evaluating Robot Manipulation in Simulation [62.51953630639423]
既存のベンチマークには視覚的リアリズムがなく、シミュレーションと現実の間に大きな領域ギャップが生じる。
シミュレーションにおけるロボット操作評価のための,視覚的にリアルなベンチマークであるVISERを提案する。
VISERは、物理ベースのレンダリング(PBR)素材を備えた1000以上の3Dアセットの高忠実度データセットと、それらのアセットから作成される3Dシーンを、レイアウトや生成によって構成する。
論文 参考訳(メタデータ) (2026-05-07T14:13:05Z) - Mind the Sim2Real Gap in User Simulation for Agentic Tasks [101.69142591891234]
ユーザシミュレーションにおけるSim2Realのギャップを形式化し、実際の人間に対して$$$-benchプロトコルを実行する最初の研究を示す。
LLMシミュレータは過度に協調的であり、スタイリスティックに均一であり、現実的なフラストレーションや曖昧さを欠いている。
これらの知見は, LLMベースのユーザシミュレータをエージェント開発サイクルで使用する際の人間による検証の重要性を強調した。
論文 参考訳(メタデータ) (2026-03-11T19:12:31Z) - Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation [54.29523408543184]
シミュレーションと意思決定の学習は、現実世界の展開を危険にさらすことなく、デジタル環境で安全なポリシートレーニングを可能にする。
既存のアプローチでは、平均的なシミュレーションの忠実さを改善するか、保守的な正規化を採用するかに重点を置いている。
提案するSim2Actは,シミュレータとポリシーのロバスト性の両方に対処するロバストなシミュレーション・トゥ・意思決定フレームワークである。
論文 参考訳(メタデータ) (2026-03-10T00:51:47Z) - PolaRiS: Scalable Real-to-Sim Evaluations for Generalist Robot Policies [88.78188489161028]
シミュレーションにおける政策評価と環境復元(PolaRiS)の導入
PolaRiSは、高忠実度シミュレーションロボット評価のためのスケーラブルなリアルタイム・シミュレート・フレームワークである。
PolaRiSの評価は,既存のシミュレーションベンチマークよりも,現実のジェネラリストのポリシー性能に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2025-12-18T18:49:41Z) - Reliable and Scalable Robot Policy Evaluation with Imperfect Simulators [9.868826622074899]
SureSimは、比較的小さな実世界のテストで大規模なシミュレーションを強化するためのフレームワークである。
我々は,非漸近平均推定アルゴリズムを利用して,平均政策性能に対する信頼区間を提供する。
当社のアプローチは,同様のポリシ性能の限界を達成するため,ハードウェア評価作業の20~25%以上を節約する。
論文 参考訳(メタデータ) (2025-10-05T20:37:53Z) - Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - A Conservative Approach for Few-Shot Transfer in Off-Dynamics Reinforcement Learning [3.1515473193934778]
オフダイナミックス強化学習(英語: Off-dynamics Reinforcement Learning)は、ソース環境から、異なるが類似したダイナミクスによって特徴づけられるターゲット環境へポリシーを移そうとする。
我々は近年のImitation Learningと保守的RLアルゴリズムの進歩に触発された革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-24T13:09:08Z) - Sim-Anchored Learning for On-the-Fly Adaptation [45.123633153460034]
実世界のデータを持つ微調整シミュレーション訓練されたRLエージェントは、制限されたデータ分布や歪んだデータ分布のために重要な振る舞いを劣化させることが多い。
シミュレーションと現実の両方において政策目標を満たさなければならない多目的最適化問題として、フレーミングライブ適応を提案する。
論文 参考訳(メタデータ) (2023-01-17T16:16:53Z) - Synthetic Data-Based Simulators for Recommender Systems: A Survey [55.60116686945561]
本調査は,モデリングとシミュレーションの分野における最近のトレンドを包括的に概観することを目的としている。
まずは、シミュレーターを実装するフレームワークの開発の背後にあるモチベーションから始めます。
我々は,既存のシミュレータの機能,近似,産業的有効性に基づいて,新しい一貫した一貫した分類を行う。
論文 参考訳(メタデータ) (2022-06-22T19:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。