論文の概要: Evolutionary Bilevel Reward Shaping for Generalization in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.16236v1
- Date: Mon, 15 Jun 2026 05:35:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.095767
- Title: Evolutionary Bilevel Reward Shaping for Generalization in Reinforcement Learning
- Title(参考訳): 強化学習における一般化のための進化的バイレベル・リワード整形
- Authors: Ekasit Usaratniwart, Xilin Gao, Marc Ong, Youhei Akimoto,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、トレーニング中に遭遇したものと異なる環境にデプロイされた場合、しばしばパフォーマンス劣化に悩まされる。
ドメインランダム化(DR)のような既存のテクニックは、これを緩和するが、多様なトレーニング環境へのアクセスと完全な軌道観測性を必要とする。
本稿では,二段階最適化手法であるEvolutionary Reward Shaping (GERS) による一般化を提案する。
- 参考スコア(独自算出の注目度): 3.279378558656342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) often suffers from performance degradation when deployed in environments that differ from those encountered during training. Existing techniques such as domain randomization (DR) mitigate this, but require access to diverse training environments and full trajectory observability, assumptions that fail in privacy-preserving or restricted scenarios where only scalar performance metrics are available. We propose Generalization via Evolutionary Reward Shaping (GERS), a bilevel optimization approach to improve generalization on unseen test environments using only scalar feedback from validation environments. At the lower level, an RL agent guided via a reward function shaped by the upper level learns a policy on a limited set of training environments with accessible trajectory data; at the upper level, CMA-ES optimizes the reward shaping parameters to maximize the cumulative unshaped reward on separate validation environments for which trajectory access is unavailable. Results on continuous control tasks indicate that GERS outperforms the standard RL baseline on unseen test environments. GERS performance is comparable to DR, despite DR treating the combined set of training and validation environments of GERS as a single training set that requires trajectory access, whereas GERS cannot access validation trajectories. These results confirm that GERS effectively enhances generalization under restricted data access constraints.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、トレーニング中に遭遇したものと異なる環境にデプロイされた場合、しばしばパフォーマンス劣化に悩まされる。
ドメインのランダム化(DR)のような既存のテクニックは、これを緩和するが、多様なトレーニング環境や完全な軌道オブザーバビリティ、プライバシ保護に失敗する仮定、スカラーパフォーマンスメトリクスしか利用できない制限されたシナリオへのアクセスを必要とする。
本稿では,検証環境からのスカラーフィードバックのみを用いて,未確認テスト環境の一般化を改善するための二段階最適化手法であるEvolutionary Reward Shaping (GERS)による一般化を提案する。
下層では、上位層が形成した報酬関数を介して誘導されるRLエージェントが、アクセス可能な軌道データで限られた訓練環境上のポリシーを学習し、上位層では、軌道アクセスが不可能な個別の検証環境において累積未形報酬を最大化するために報酬形成パラメータを最適化する。
連続制御タスクの結果は、GERSが見えないテスト環境で標準のRLベースラインを上回っていることを示している。
GERSのパフォーマンスはDRに匹敵するが、DRはGERSのトレーニングと検証環境を1つのトレーニングセットとして扱い、軌道アクセスを必要とするが、GERSは検証トラジェクトリにアクセスできない。
これらの結果から,GERSは制約付きデータアクセス制約下での一般化を効果的に促進することを確認した。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Learning in Context, Guided by Choice: A Reward-Free Paradigm for Reinforcement Learning with Transformers [55.33468902405567]
本稿では、事前学習とデプロイの両方が好みのフィードバックにのみ依存する新しい学習パラダイム、In-Context Preference-based Reinforcement Learning (ICPRL)を提案する。
ICPRLは、厳密なコンテキスト内一般化を可能にし、完全な報酬管理で訓練されたICRLメソッドに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-09T03:42:16Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。
本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。
我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文 参考訳(メタデータ) (2025-04-15T10:41:11Z) - DRED: Zero-Shot Transfer in Reinforcement Learning via Data-Regularised Environment Design [11.922951794283168]
本研究では,RLエージェントのゼロショット一般化能力(ZSG)に,個々の環境インスタンスやレベルのサンプリングがどう影響するかを検討する。
基本層を共有する深いアクター・クリティカルなアーキテクチャでは, エージェントの内部表現と, 生成したトレーニングデータのトレーニングレベルとの相互情報を最小限に抑える。
既存のUED手法は,ZSG性能の低いトレーニング分布を著しくシフトできることがわかった。
オーバーフィッティングと分散シフトの両面を防止するため,データ正規化環境設計(D)を導入する。
論文 参考訳(メタデータ) (2024-02-05T19:47:45Z) - How the level sampling process impacts zero-shot generalisation in deep
reinforcement learning [12.79149059358717]
深い強化学習を通じて訓練された自律エージェントが広く採用されるのを防ぐ重要な制限は、新しい環境に一般化する能力の制限である。
本研究では,RLエージェントのゼロショット一般化能力に,個別環境インスタンスの非一様サンプリング戦略がどう影響するかを検討する。
論文 参考訳(メタデータ) (2023-10-05T12:08:12Z) - Improving Generalization in Reinforcement Learning with Mixture
Regularization [113.12412071717078]
そこで本研究では,異なるトレーニング環境からの観察を混合してエージェントを訓練する,mixregという簡単なアプローチを提案する。
Mixregはデータの多様性をより効果的に向上し、よりスムーズなポリシーを学ぶのに役立つ。
その結果、mixregは、未確認テスト環境において確立されたベースラインを大きなマージンで上回る結果となった。
論文 参考訳(メタデータ) (2020-10-21T08:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。