論文の概要: WAM-RL: World-Action Model Reinforcement Learning with Reconstruction Rewards and Online Video SFT
- arxiv url: http://arxiv.org/abs/2606.17906v1
- Date: Tue, 16 Jun 2026 13:29:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.450098
- Title: WAM-RL: World-Action Model Reinforcement Learning with Reconstruction Rewards and Online Video SFT
- Title(参考訳): WAM-RL:リコンストラクション・リワードとオンラインビデオSFTを用いたワールド・アクション・モデル強化学習
- Authors: Zezhong Qian, Xiaowei Chi, Yu Qi, Haozhan Li, Zhi Yang Chen, Shanghang Zhang,
- Abstract要約: World-Action(WA)モデルは強力な一般化能力とデータ効率を示す。
WAM-RLは世界モデルとアクションモデルの協調最適化を可能にする強化学習フレームワークである。
私たちの研究は、World-Actionパラダイムに強化学習を導入する最初のものです。
- 参考スコア(独自算出の注目度): 42.80852706784868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent World-Action (WA) models demonstrate strong generalization ability and data efficiency, but they typically rely on expert trajectories for training. This reliance limits their ability to acquire fine-grained manipulation skills beyond the demonstration distribution and prevents them from continuously improving through real-world interaction. To address these limitations, we propose WAM-RL, a reinforcement learning framework that enables joint optimization of the world model and the action model through online interaction with the environment. By allowing the two components to co-evolve, our approach enhances fine-grained control and adaptability. Specifically, a WA model consists of a world model and an actor. We design a tailored reinforcement learning method with hierarchical optimization to coordinate their improvement. On the methodological side, we systematically investigate the effects of applying reinforcement learning to the action model, as well as online training of the world model within an RL setting. Our experiments reveal a key insight: optimizing only the actor yields improvements on short-horizon tasks, but fails to provide significant gains on long-horizon tasks. In contrast, jointly optimizing both the world model and the actor is critical for achieving strong performance in long-horizon settings. Our work is the first to introduce reinforcement learning into the World-Action paradigm, and provides insights into how online optimization of both the action head and the world model impacts overall performance.
- Abstract(参考訳): 近年のWorld-Action(WA)モデルは、強力な一般化能力とデータ効率を示すが、訓練には専門家の軌道に依存するのが一般的である。
この依存は、実世界のインタラクションを通じて、詳細な操作スキルを得る能力を制限し、継続的に改善することを防ぐ。
これらの制約に対処するために,世界モデルと行動モデルの協調最適化を可能にする強化学習フレームワークであるWAM-RLを提案する。
この2つのコンポーネントを共進化させることで、細粒度制御と適応性を高めることができる。
具体的には、WAモデルはワールドモデルとアクターから構成される。
階層的な最適化を施した強化学習手法を設計し,その改善を調整した。
提案手法は,アクションモデルに強化学習を適用することの効果と,RL設定における世界モデルのオンライントレーニングを系統的に検討する。
我々の実験では、アクターのみを最適化することで、短距離タスクの改善が達成されるが、長距離タスクでは大きな改善が得られない、という重要な洞察が浮かび上がっている。
対照的に、世界モデルと俳優の双方を協調的に最適化することは、ロングホライゾン環境での強いパフォーマンスを達成するために重要である。
私たちの研究は、ワールド・アクションのパラダイムに強化学習を導入し、アクションヘッドとワールドモデルのオンライン最適化が全体的なパフォーマンスに与える影響についての洞察を提供する最初のものです。
関連論文リスト
- WorldCompass: Reinforcement Learning for Long-Horizon World Models [81.03997753254023]
この研究は、インタラクティブなビデオベースの世界モデルのための新しい強化学習(RL)フレームワークであるWorldを提示する。
本稿では,自己回帰ビデオ生成パラダイムに合わせた3つのコアイノベーションを紹介する。
様々なシナリオにおけるインタラクションの精度と視覚的忠実度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2026-02-09T18:59:47Z) - Co-Evolving Latent Action World Models [57.48921576959243]
学習済みのビデオモデルを潜在アクションを介して制御可能な世界モデルに適応させることは、ジェネラリストの世界モデルを作成するための有望なステップである。
本稿では,この相乗的パラダイムを初めて実現したCoLA-Worldを提案する。
世界モデルは知識のある家庭教師として機能し、高品質のLAMを形成するための勾配を提供する。
論文 参考訳(メタデータ) (2025-10-30T12:28:40Z) - Policy-Driven World Model Adaptation for Robust Offline Model-based Reinforcement Learning [6.189693079685375]
オフラインモデルベースRL(MBRL)は、静的データセットからワールドモデルを明示的に学習する。
政策とともに世界モデルを動的に適用する枠組みを提案する。
我々は,D4RL MuJoCoタスク12件とTokamak Controlタスク3件のアルゴリズムをベンチマークし,その最先端性能を実証した。
論文 参考訳(メタデータ) (2025-05-19T20:14:33Z) - AdaWorld: Learning Adaptable World Models with Latent Actions [76.50869178593733]
我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。
主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。
次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
論文 参考訳(メタデータ) (2025-03-24T17:58:15Z) - On the Feasibility of Cross-Task Transfer with Model-Based Reinforcement
Learning [45.73223325256312]
最新のモデルベースRLアルゴリズムで学習した内部モデルが、新しい明らかに異なるタスクを高速に解くために活用できるかどうかを考察する。
我々は,学習世界のモデルのスケーラブルな事前学習と微調整が可能な,サンプル効率の高いオンラインRLのためのフレームワークであるModel-Based Cross-Task Transfer (XTRA)を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。