論文の概要: An Agency-Transferring Model-Free Policy Enhancement Technique
- arxiv url: http://arxiv.org/abs/2606.09825v1
- Date: Mon, 08 Jun 2026 17:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.688598
- Title: An Agency-Transferring Model-Free Policy Enhancement Technique
- Title(参考訳): エージェンシー・トランスファーモデルフリーポリシー強化手法
- Authors: Anton Bolychev, Georgiy Malaniya, Sinan Ibrahim, Pavel Osinenko,
- Abstract要約: 訓練強化学習(RL)は、ゼロから行うのに費用がかかる。
多くの制御問題は、既に基本線として利用できる機能的だが準最適ポリシーを持っている。
本稿では,そのようなベースラインをRLトレーニングプロセスに組み込む手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training reinforcement learning (RL) policies from scratch is costly: it requires careful reward and environment design, extensive tuning, and substantial computation. Yet many control problems already have a functional but suboptimal policy available as a baseline. This paper proposes a method for embedding such a baseline into the RL training process, simultaneously improving training efficiency relative to from-scratch methods and producing a learning policy that outperforms the baseline. At each step, the method arbitrates between the baseline policy and a trainable learning policy, initially relying strongly on the baseline policy and then progressively transferring agency to the learning policy. By the end of training, the learning policy is a standalone neural network that operates without baseline policy support. The paper formalizes what it means for the baseline policy to be functional: under this policy, the agent reaches a goal set and remains there with high probability. The proposed arbitration mechanism is designed to exploit this property during training, yielding high goal-reaching rates right from the beginning of training. A theoretical analysis provides a formal interpretation of this behavior under stated assumptions and extends it to the final baseline-free regime, where explicit lower bounds are derived for the goal-reaching probability of the standalone learning policy. Empirical results on continuous-control benchmarks show that the proposed method achieves returns that match or exceed those of competitive approaches, while maintaining the highest goal-reaching rates throughout training among the compared methods -- including in the final stage, where the learning policy operates without any baseline support.
- Abstract(参考訳): トレーニング強化学習(RL)ポリシーをスクラッチから作り出すには、注意深い報酬と環境設計、広範囲なチューニング、相当な計算が必要である。
しかし、多くの制御問題は、既に基本として利用できる機能的だが準最適ポリシーを持っている。
本稿では,このようなベースラインをRLトレーニングプロセスに組み込む方法を提案する。
各段階において、基本方針と訓練可能な学習方針を仲裁し、当初は基本方針に強く依存し、その後、段階的に学習方針に代理を移す。
トレーニングの終わりまでに、学習ポリシーは、ベースラインポリシーサポートなしで動作するスタンドアロンのニューラルネットワークである。
この方針の下で、エージェントは目標セットに達し、高い確率でそこに留まる。
提案した仲裁機構は、トレーニングの開始時から高い目標獲得率が得られるように、この特性を利用するように設計されている。
理論解析は、この振る舞いを記述された仮定の下で形式的に解釈し、それを最終的なベースラインのない状態に拡張する。
連続制御ベンチマークの実証的な結果から,提案手法は,学習方針がベースラインサポートなしで運用される最終段階を含む,比較手法のトレーニングを通じて最高の目標達成率を維持しつつ,競争的アプローチの成果と一致または上回るリターンを達成することが示された。
関連論文リスト
- EXPO: Stable Reinforcement Learning with Expressive Policies [74.30151915786233]
2つのパラメータ化ポリシーで値の最大化を実現するために,サンプル効率のよいオンライン強化学習アルゴリズムを提案する。
提案手法は, 従来手法に比べて試料効率を最大2~3倍向上させる。
論文 参考訳(メタデータ) (2025-07-10T17:57:46Z) - Accelerating Residual Reinforcement Learning with Uncertainty Estimation [20.516264459225734]
残留強化学習(Residual Reinforcement Learning, RL)は、修正行動を提供する軽量な残留ポリシーを学習することで、事前訓練されたポリシーを適用するための一般的なアプローチである。
残留RLは基本方針全体を微調整するよりもサンプリング効率が高いが、既存の手法はスパース報酬に苦慮し、決定論的基本方針のために設計されている。
本稿では, サンプル効率をさらに向上し, 基本方針に適合させるため, 残留RLの2つの改良点を提案する。
論文 参考訳(メタデータ) (2025-06-21T03:18:01Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Comparing the Efficacy of Fine-Tuning and Meta-Learning for Few-Shot
Policy Imitation [45.312333134810665]
数発の模倣に取り組む最先端の手法はメタラーニングに依存している。
近年の研究では、ファインチューナーは画像分類タスクにおいてメタラーナーよりも優れていることが示されている。
人気の高いOpenAI-Gym MuJoCo環境の154種類からなるiMuJoCoと呼ばれるオープンソースデータセットをリリースする。
論文 参考訳(メタデータ) (2023-06-23T15:29:15Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - Towards an Understanding of Default Policies in Multitask Policy
Optimization [29.806071693039655]
近年の強化学習の成功の多くは、正規化ポリシー最適化(RPO)アルゴリズムによって推進されている。
このギャップを埋める第一歩として、デフォルトポリシーの品質と最適化の効果を正式にリンクします。
次に,高い性能保証を有するマルチタスク学習のための原理的RPOアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-11-04T16:45:15Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。