論文の概要: Quantile of Means: A Bonus-Free Ensemble Method for Minimax Optimal Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.20107v1
- Date: Thu, 18 Jun 2026 11:30:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.822142
- Title: Quantile of Means: A Bonus-Free Ensemble Method for Minimax Optimal Reinforcement Learning
- Title(参考訳): 意味の定量化:最小限の強化学習のためのボーナスフリーアンサンブル法
- Authors: Asaf Cassel, Aviv Rosenberg,
- Abstract要約: 有限水平マルコフ決定過程(MDP)に対する量子的アンサンブル法を提案する。
我々の単純なカウントフリーアプローチは最適な分散依存的後悔境界を達成し、RLにおけるアンサンブルに基づく探索の理論的基礎を提供する。
- 参考スコア(独自算出の注目度): 7.667669760293445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimal Reinforcement Learning (RL) algorithms typically rely on carefully constructed count-based uncertainty estimates to drive exploration. Although theoretically sound, such estimates are hard to compute in practical settings and therefore offer limited insight for designing exploration heuristics. Meanwhile, ensembling has emerged as a practical approach, but remains without theoretical justification. Building on a recent ensemble-based method for Multi-Armed Bandits, we propose a quantile-based ensemble method for finite-horizon Markov Decision Processes (MDPs). Our simple count-free approach achieves optimal variance-dependent regret bounds, providing theoretical grounding for ensemble-based exploration in RL.
- Abstract(参考訳): 最適強化学習(RL)アルゴリズムは通常、探索を促進するために、注意深く構築されたカウントベースの不確実性推定に依存する。
理論的には健全であるが、そのような推定は実際は計算が難しいため、探査ヒューリスティックスを設計するための限られた洞察を与える。
一方、アンサンブルは実践的なアプローチとして現れてきたが、理論上は正当化されていない。
近年のマルチArmed Banditsのアンサンブルに基づく手法に基づいて,有限水平マルコフ決定過程(MDP)の量子的アンサンブル法を提案する。
我々の単純なカウントフリーアプローチは最適な分散依存的後悔境界を達成し、RLにおけるアンサンブルに基づく探索の理論的基礎を提供する。
関連論文リスト
- Constrained Multi-Objective Reinforcement Learning with Max-Min Criterion [24.714655444299435]
MORL(Multi-Objective Reinforcement Learning)は、複数の、しばしば矛盾する目標に対するポリシーを最適化することで、標準RLを拡張します。
我々は,最大値基準を明示的な制約満足度と統合するMORLフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-29T14:52:12Z) - Split the Differences, Pool the Rest: Provably Efficient Multi-Objective Imitation [49.86232017439639]
マルチ出力拡張行動クローン(MA-BC)について紹介する。
MA-BCは、振る舞いの衝突が観測されない状態-動作ペアをプールしながら、専門家データを分離する。
我々は,MA-BCが極小であることを示す,多目的模倣学習のための新しい下位境界を確立する。
論文 参考訳(メタデータ) (2026-05-12T11:49:08Z) - Batch Ensemble for Variance Dependent Regret in Stochastic Bandits [41.95653110232677]
オンライン強化学習(RL:Reinforcement Learning)において、探索と搾取を効果的に行うことが重要な課題の1つだ。
実践的なアンサンブル法に着想を得た本研究では,マルチアーマッド・バンディット(MAB)のほぼ最適後悔を実現する,単純かつ新しいバッチアンサンブル方式を提案する。
提案アルゴリズムは, バッチ数という1つのパラメータしか持たず, 損失のスケールや分散といった分布特性に依存しない。
論文 参考訳(メタデータ) (2024-09-13T06:40:56Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Single-Trajectory Distributionally Robust Reinforcement Learning [21.955807398493334]
本研究では,分散ロバストRL (DRRL) を提案する。
既存のDRRLアルゴリズムはモデルベースか、1つのサンプル軌道から学習できないかのいずれかである。
単一軌道を用いた分散ロバストQ-ラーニング(DRQ)と呼ばれる,完全モデルフリーなDRRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z) - Efficient Performance Bounds for Primal-Dual Reinforcement Learning from
Demonstrations [1.0609815608017066]
本稿では,コスト関数の不明な大規模マルコフ決定プロセスについて考察し,限られた専門家による実証から政策を学習する問題に対処する。
既存の逆強化学習法には強力な理論的保証があるが、計算上は高価である。
ラグランジアン双対性を利用して理論と実践のギャップを埋める新しい双線型サドルポイントフレームワークを導入する。
論文 参考訳(メタデータ) (2021-12-28T05:47:24Z) - Structure Adaptive Algorithms for Stochastic Bandits [22.871155520200773]
構造化多武装バンディット問題のクラスにおける報酬最大化について検討する。
平均的な武器の報酬は、与えられた構造的制約を満たす。
我々は、反復的なサドルポイントソルバを用いて、インスタンス依存の低バウンドからのアルゴリズムを開発する。
論文 参考訳(メタデータ) (2020-07-02T08:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。