論文の概要: Reward as An Agent for Embodied World Models
- arxiv url: http://arxiv.org/abs/2606.19990v1
- Date: Thu, 18 Jun 2026 09:29:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.766144
- Title: Reward as An Agent for Embodied World Models
- Title(参考訳): 身体的世界モデルのためのエージェントとしてのリワード
- Authors: Pu Li, Zhigang Lin, Qiang Wu, Yongxuan Lv, Fei Wang, Shan You,
- Abstract要約: 我々は、中核的な制限は探査そのものではなく、より広範な探査を支援するための信頼性の高い検証戦略の欠如であると主張している。
Reward as an Agent, an agentic reward framework that a generated behaviors to provide robust reward signal。
また,DynDiff-GRPOによるダイナミック・アウェア・ロールアウト・ディバーシフィケーション(Dynamic-Aware Rollout Diversification)も導入した。
- 参考スコア(独自算出の注目度): 26.825141454200686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While RL has become a promising tool for refining world models, existing methods largely rely on conservative rollouts near the training distribution, limiting exploration, behavioral diversity, and richer dynamic discovery. In this work, we challenge this conservative paradigm. We argue that the core limitation is not exploration itself, but the lack of reliable verification strategies to support broader exploration. Without reliable verification, expanded exploration becomes highly susceptible to reward hacking, where policies exploit imperfect rewards without achieving genuine improvement. To evaluate this motivation, we instantiate our method in embodied world models, where physical plausibility, and task completion provide a rigorous testbed for scalable RL under complex dynamics. On the verification side, we introduce Reward as an Agent, an agentic reward framework that actively evaluates generated behaviors to provide robust reward signals and mitigate reward hacking under distribution shifts. On the exploration side, we introduce Dynamic-Aware Rollout Diversification through DynDiff-GRPO, which explicitly expands action-space exploration to diversify trajectories, broaden state-action coverage, and encourage richer embodied behaviors beyond conservative rollout regimes. By unifying Reward as an Agent with DynDiff-GRPO, we enable RL on a more reliable reward foundation with substantially diversified sampling, effectively mitigating reward hacking while yielding significant accuracy gains across multiple open-source world models, thereby demonstrating that broader exploration can scale successfully when grounded in robust verification.
- Abstract(参考訳): RLは世界モデルを精錬するための有望なツールとなっているが、既存の手法はトレーニング分布近くの保守的なロールアウト、探索の制限、行動多様性、よりリッチな動的発見に大きく依存している。
この研究では、この保守的なパラダイムに挑戦する。
我々は、中核的な制限は探査そのものではなく、より広範な探査を支援するための信頼性の高い検証戦略の欠如であると主張している。
信頼性の高い検証がなければ、拡張された探索は、真の改善を達成せずに不完全な報酬を悪用するハッキングに対して非常に影響を受けやすいものとなる。
このモチベーションを評価するために, 複雑な力学下でのスケーラブルなRLのための厳密なテストベッドとして, 物理的妥当性, タスク完了が提供される, 具体化された世界モデルで本手法をインスタンス化する。
検証面では,エージェント・アズ・ア・エージェント(エージェント・アズ・エージェント)を導入する。エージェント・アズ・ア・エージェント(エージェント・ア・エージェント)は,エージェント・アズ・ア・エージェント(エージェント・アズ・エージェント)で,エージェント・アズ・ア・エージェント(エージェント・ア・エージェント)の動作を積極的に評価し,ロバストな報酬信号を提供する。
探索面では、DynDiff-GRPOによるダイナミック・アウェア・ロールアウトの多様化を導入し、行動空間の探索を明示的に拡張し、軌跡を多様化し、国家の行動範囲を広げ、保守的なロールアウト体制を超えてより豊かな実施行動を奨励する。
エージェントとしてのRewardをDynDiff-GRPOと統一することにより、RLはより信頼性の高い報奨基盤上で、かなり多様なサンプリングを行い、複数のオープンソースワールドモデルに対して大幅な精度向上を達成しつつ、報酬ハッキングを効果的に軽減し、ロバストな検証において広範な探索が成功できることを実証する。
関連論文リスト
- ProgAgent:A Continual RL Agent with Progress-Aware Rewards [0.07646713951724009]
ProgAgentは、プログレッシブアウェアの報酬学習をJAXネイティブシステムアーキテクチャと統合する継続的強化学習エージェントである。
これは、初期、現在、および目標観測におけるタスクの進捗を推定する知覚モデルを通じて、ラベルなしのエキスパートビデオから、密集した形をした報酬を導き出す。
ProgAgentは、非常に並列なロールアウトと完全に異なる更新をサポートし、洗練された統合された目標の実現を可能にする。
論文 参考訳(メタデータ) (2026-03-08T19:58:07Z) - Adaptive Milestone Reward for GUI Agents [38.548364518806046]
本稿では,Adaptive Milestone Reward (ADMIRE) 機構を提案する。
ADMIREは、軌道をマイルストーンに固定することで、検証可能な適応的な報酬システムを構築する。
実験によると、ADMIREは成功率において10%以上の絶対的な改善をもたらす。
論文 参考訳(メタデータ) (2026-02-12T03:31:40Z) - Diversity-Incentivized Exploration for Versatile Reasoning [63.653348177250756]
textbfDi-textbf Incentivized Exploration for textbfVersatiltextbfE textbfReasoningを提案する。
論文 参考訳(メタデータ) (2025-09-30T13:11:46Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。
我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。
提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文 参考訳(メタデータ) (2024-12-16T18:59:53Z) - Self-supervised network distillation: an effective approach to exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。
本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文 参考訳(メタデータ) (2023-02-22T18:58:09Z) - Multimodal Reward Shaping for Efficient Exploration in Reinforcement
Learning [8.810296389358134]
IRSモジュールは、学習手順を記録し解析するために、アテンダントモデルや追加メモリに依存している。
エントロピー正則化器を置き換えるために,ジャイナの公正度指数 (JFI) という新しい指標を導入する。
論文 参考訳(メタデータ) (2021-07-19T14:04:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。