論文の概要: Object-Centric Residual RL for Zero-Shot Sim-to-Real VLA Enhancement
- arxiv url: http://arxiv.org/abs/2606.18953v1
- Date: Wed, 17 Jun 2026 11:36:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.134834
- Title: Object-Centric Residual RL for Zero-Shot Sim-to-Real VLA Enhancement
- Title(参考訳): ゼロショットSim-to-Real VLA拡張のためのオブジェクト中心残差RL
- Authors: Kinam Kim, Namiko Saito, Heecheol Kim, Katsushi Ikeuchi, Jaegul Choo, Yasuyuki Matsushita,
- Abstract要約: VLA(Vision-Language-Action)モデルは様々な操作タスクにまたがって一般化することができる。
シミュレーションで純粋に訓練された強化学習政策は、実世界のVLAのゼロショットの堅牢性を改善することができるか?
本稿では,オブジェクトポーズを用いてVLA動作を洗練するオブジェクト中心残差RLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 52.93267443851685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models can generalize across diverse manipulation tasks, but their imitation-learning-based policies remain brittle in precise physical interactions due to compounding execution errors; Can a reinforcement learning policy trained purely in simulation improve the robustness of real-world VLAs zero-shot? Residual RL, which learns a corrective policy on top of a frozen VLA, offers a natural framework, but existing approaches face a fundamental sim-to-real dilemma: privileged-state methods require lossy distillation for deployment; image-based methods suffer from the visual domain gap; and real-world RL is costly and unsafe. We propose an object-centric residual RL framework that refines VLA actions using object poses, enabling a compact observation space that transfers consistently between simulation and reality. To align the two domains, we additionally replay the same teleoperation demonstrations in simulation to train a sim counterpart of the real-world VLA. The residual RL policy is trained only in simulation with pose noise injection and dropout, and transfers zero-shot to the real robot. Across five manipulation tasks on a real Franka Research 3 (FR3) robot, our method improves the success rate from 42% to 76% zero-shot, and the improved rollouts can be further reused to retrain the base VLA for self-improvement without additional teleoperation. Project page: https://www.microsoft.com/en-us/research/articles/object-centric-residual-rl/
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは様々な操作タスクにまたがって一般化することができるが、それらの模倣学習に基づくポリシーは、実行エラーの混成による正確な物理的相互作用において脆弱なままであり、シミュレーションで純粋に訓練された強化学習ポリシーは、現実世界のVLAのゼロショットの堅牢性を改善することができるのだろうか?
凍結したVLAの上に修正ポリシを学習するResidual RLは、自然なフレームワークを提供するが、既存のアプローチは、基本的なsim-to-realジレンマに直面している。
本稿では、オブジェクトポーズを用いてVLA動作を洗練し、シミュレーションと現実の間を連続的に移動するコンパクトな観測空間を実現するオブジェクト中心残差RLフレームワークを提案する。
2つのドメインを整列させるために、シミュレーションで同じ遠隔操作デモを再生し、実世界のVLAのシミュレートを訓練する。
残留RLポリシーは、ポーズノイズ注入とドロップアウトによるシミュレーションでのみ訓練され、ゼロショットを実際のロボットに転送する。
実物であるFranka Research 3(FR3)ロボットの5つの操作タスクにおいて、本手法は成功率を42%から76%に改善し、改良されたロールアウトをさらに再利用して、追加の遠隔操作なしにベースVLAを自己改善するために再訓練することができる。
プロジェクトページ:https://www.microsoft.com/en-us/research/articles/object-centric-residual-rl/
関連論文リスト
- Sim2Real-AD: A Modular Sim-to-Real Framework for Deploying VLM-Guided Reinforcement Learning in Real-World Autonomous Driving [13.424737198969247]
本稿では,VLM誘導型RLポリシーを実車にゼロショット・シミュレートするためのモジュラーフレームワークであるSim2Real-ADを提案する。
我々の知る限り、本研究はCARLAで訓練されたVLM誘導RLポリシーを実車にゼロショットクローズドループで展開した最初の事例である。
論文 参考訳(メタデータ) (2026-04-03T22:41:45Z) - SPARR: Simulation-based Policies with Asymmetric Real-world Residuals for Assembly [13.3674466451862]
シミュレーション学習された基本方針と実世界の残留政策を組み合わせたハイブリッドアプローチを提案する。
本手法は,多種多様な組立作業におけるほぼ完全な成功率を実現する。
論文 参考訳(メタデータ) (2026-02-26T17:26:13Z) - Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL [30.884160045861616]
我々は、VLAポリシーの訓練後、信頼性の高い世界モデルに基づく強化学習フレームワークであるWoVRを提案する。
制御可能なアクション条件付きビデオワールドモデルによってロールアウト安定性を向上させる。
また、Keyframe-evolutiond Rolloutsによる効果的なエラー深度を低減するために、想像上のインタラクションを再確認する。
論文 参考訳(メタデータ) (2026-02-15T03:48:20Z) - Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models [35.41613201907666]
本稿では,UnderlinetextitRLベースのsim-real UnderlinetextitCo-training modified(RL-Co)フレームワークを提案する。
RLコトレーニングは、目に見えないタスクのバリエーションに強く一般化し、実世界のデータ効率を大幅に改善する。
論文 参考訳(メタデータ) (2026-02-13T05:15:50Z) - World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy [55.03832008486675]
World-VLA-Loopは、世界モデルとVision-Language-Action (VLA) ポリシーの共同改良のためのクローズドループフレームワークである。
本研究では,将来観測と報奨信号の同時予測により,高忠実度インタラクティブシミュレータとして機能する状態認識型ビデオワールドモデルを提案する。
論文 参考訳(メタデータ) (2026-02-06T08:57:55Z) - Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer [59.02729900344616]
GPUを加速したフォトリアリスティックなシミュレーションは、ロボット学習のためのスケーラブルなデータ生成パスを開いた。
視覚に基づくヒューマノイドロコ操作のための教師-学生-ブートストラップ学習フレームワークを開発した。
これは、純粋なRGB知覚を用いた多様な調音ロコ操作が可能な初めてのヒューマノイド・シム・トゥ・リアル政策である。
論文 参考訳(メタデータ) (2025-11-30T20:07:13Z) - VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators [38.880852900641]
VLA(Vision-Language-Action)モデルは、具体的意思決定を可能にするが、模倣学習に大きく依存する。
制御可能なシミュレータとしてデータ駆動世界モデルを利用する強化微調整フレームワークであるVLA-RFTを紹介する。
400歩未満の微調整ステップで、VLA-RFTは強い教師付きベースラインを超え、シミュレータベースのRLよりも高い効率を達成する。
論文 参考訳(メタデータ) (2025-10-01T01:33:10Z) - Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids [56.892520712892804]
本稿では,ヒューマノイドロボットを訓練して3つの巧妙な操作を行う,実用的なシミュレート・トゥ・リアルなRLレシピを提案する。
未確認のオブジェクトやロバストで適応的な政策行動に対して高い成功率を示す。
論文 参考訳(メタデータ) (2025-02-27T18:59:52Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。