論文の概要: Learning Process Rewards via Success Visitation Matching for Efficient RL
- arxiv url: http://arxiv.org/abs/2606.23640v1
- Date: Mon, 22 Jun 2026 17:30:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 17:36:00.088217
- Title: Learning Process Rewards via Success Visitation Matching for Efficient RL
- Title(参考訳): 効率的なRLのための継承訪問マッチングによる学習過程のリワード
- Authors: Raymond Tsao, Andrew Wagenmaker, Sergey Levine,
- Abstract要約: 本稿では,スパース結果報酬を高密度プロセス報酬に変換するための簡単な手法を提案する。
我々のアプローチは、以前の成功と失敗のエピソードを区別するために差別者を訓練することに依存しています。
この報酬は、タスクの成功に対応するものだけでなく、すべての州への訪問に対応するポリシーをインセンティブにすることで、タスク完了に向けた進捗が進められているかどうかについての深いフィードバックを提供する。
- 参考スコア(独自算出の注目度): 54.67547527674048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many modern applications of reinforcement learning (RL), the natural reward for a task of interest is inherently sparse: a reward of 0 is given everywhere except when the task is completed, when a reward of +1 is given. Training a policy to maximize such a sparse reward requires solving a challenging credit assignment problem, leading to slow or ineffective RL improvement. We propose a simple approach to transform a sparse outcome reward into a dense process reward. Our approach relies on training a discriminator to distinguish between previous successful and unsuccessful episodes, and using this discriminator to incentivize the RL-learned policy to match the state-action visitations of successful episodes, while avoiding those of unsuccessful episodes. By incentivizing the policy to match the visitations over all states, not just those that correspond to task success, this reward provides dense feedback on whether progress is being made towards task completion, and, we show, provably achieves this without changing the optimal policy. Focusing on finetuning of robotic control policies, we demonstrate that our approach leads to significantly faster RL finetuning performance on both simulated and real-world manipulation tasks, as compared to simply maximizing the sparse outcome reward.
- Abstract(参考訳): 強化学習 (RL) の最近の多くの応用において、興味あるタスクに対する自然な報酬は本質的に疎い: 0 の報酬はタスクが完了した時点では、+1 の報酬が与えられたときを除いて至る所で与えられる。
このようなまばらな報酬を最大化するための政策を訓練するには、困難な信用割当問題を解決し、遅滞または非効率なRL改善につながる必要がある。
本稿では,スパース結果報酬を高密度プロセス報酬に変換するための簡単な手法を提案する。
本手法は,従来の成功エピソードと失敗エピソードを区別する判別器を訓練することに依存し,この判別器を用いてRL学習ポリシーをインセンティブとして,成功エピソードのステートアクション訪問に適合させ,失敗エピソードを回避している。
この報酬は、タスク成功に対応するものだけでなく、全ての州への訪問に対応する政策を動機付けることで、タスク完了に向けた進捗が進んでいるかどうかについての深いフィードバックを与え、最適な政策を変更することなく、確実にこれを達成できることを示す。
ロボット制御ポリシの微調整に焦点をあてて、スパース結果報酬の最大化に比較して、シミュレーションおよび実世界の操作タスクにおけるRL微調整性能が大幅に向上することを示す。
関連論文リスト
- Match or Replay: Self Imitating Proximal Policy Optimization [14.033176618356746]
強化学習(RL)エージェントは、しばしば非効率な探索に苦しむ。
従来の探索戦略は、学習の遅さと最適以下のパフォーマンスにつながる可能性がある。
本稿では,探索とサンプル効率を向上させる自己模倣型オン・ポリシーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-03-29T04:44:48Z) - Reward-Conditioned Reinforcement Learning [56.417273471201845]
Reward-Conditioned Reinforcement Learning (RCRL) は、報酬仕様のファミリーを最適化するために単一のエージェントを訓練するフレームワークである。
RCRLは、報酬パラメータ化のエージェントを条件付け、共有されたリプレイデータから複数の報酬目標を学習する。
その結果、RCRLはシングルタスクトレーニングの単純さを犠牲にすることなく、堅牢でステアブルなポリシを学習するためのスケーラブルなメカニズムを提供することを示した。
論文 参考訳(メタデータ) (2026-03-05T11:29:17Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - SPA-RL: Reinforcing LLM Agents via Stepwise Progress Attribution [9.181156720071547]
強化学習は、複雑な目標志向のタスクを扱うためのトレーニングエージェントの約束である。
フィードバック信号は通常、タスク全体が完了した後でのみ利用可能である。
我々は、最終報酬を段階的な貢献に分解するステップワイドプログレス属性を提案する。
論文 参考訳(メタデータ) (2025-05-27T05:21:04Z) - Adaptive Reward Design for Reinforcement Learning [2.3031174164121127]
本稿では,RLエージェントをインセンティブとして,論理式で指定されたタスクを可能な限り完了させる報奨関数群を提案する。
学習過程において報酬関数を動的に更新する適応型報酬生成手法を開発した。
論文 参考訳(メタデータ) (2024-12-14T18:04:18Z) - Handling Sparse Rewards in Reinforcement Learning Using Model Predictive
Control [9.118706387430883]
強化学習(RL)は近年,様々な分野で大きな成功を収めている。
しかし、報酬関数の設計には、エージェントが望ましい振る舞いを学べるように、詳細なドメインの専門知識と面倒な微調整が必要である。
本稿では,スパース報酬環境におけるRLエージェントのトレーニング経験源として,モデル予測制御(MPC)を提案する。
論文 参考訳(メタデータ) (2022-10-04T11:06:38Z) - Hindsight Task Relabelling: Experience Replay for Sparse Reward Meta-RL [91.26538493552817]
本稿では,メタRLの学習経験をリラベルするメタRLのための後向きレバーベリングの定式化について述べる。
提案手法の有効性を,難易度の高い目標達成環境のスイートで実証する。
論文 参考訳(メタデータ) (2021-12-02T00:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。