論文の概要: Bias-Controlled Primal-Dual Natural Actor-Critic: Optimal Rates for Constrained Multi-Objective Average-Reward RL
- arxiv url: http://arxiv.org/abs/2606.25012v1
- Date: Tue, 23 Jun 2026 17:56:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.106134
- Title: Bias-Controlled Primal-Dual Natural Actor-Critic: Optimal Rates for Constrained Multi-Objective Average-Reward RL
- Title(参考訳): Bias-Controlled Primal-Dual Natural Actor-Critic:Optimal Rates for Constrained Multi-Objective Average-Reward RL
- Authors: Ankur Naskar, Swetha Ganesh, Vaneet Aggarwal,
- Abstract要約: 本研究では, 平均回帰型MDPに対する原始2次元自然アクター・クライブアルゴリズムを提案する。
このアルゴリズムは最適大域収束率と制約違反率を$ tildeO (1/sqrtT) $ とすることを示す。
- 参考スコア(独自算出の注目度): 41.64418624570687
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many reinforcement learning (RL) problems in the infinite-horizon average-reward setting require optimizing multiple conflicting objectives while satisfying multiple safety constraints. A common approach is concave scalarization, where the agent maximizes a utility $ f(J^π_{r_1}, \ldots, J^π_{r_M}) $ subject to a scalarized constraint $ g(J^π_{c_1}, \ldots, J^π_{c_N}) \ge 0 $, where $J^π_{r_m}$ and $J^π_{c_n}$ denote the average-reward and cost under policy $π$. However, the nonlinearity of $f$ and $g$ introduces bias in policy-gradient and actor-critic methods, since gradients must be evaluated using noisy estimates of $J^π,$ and $ \mathbb{E}[\partial f(J^π)] \neq \partial f(\mathbb{E}[J^π]),$ and this bias propagates through both primal and dual updates. We propose an MLMC-based primal-dual Natural Actor-Critic algorithm for average-reward MDPs that controls bias in scalarized objectives, constraint evaluation, and actor-critic estimation without requiring mixing-time knowledge. We show that the algorithm achieves optimal global convergence and constraint-violation rates of $ \tilde{O}(1/\sqrt{T}) $. To our knowledge, this is the first result establishing optimal convergence for concave scalarized multi-objective RL in the average-reward setting, both with and without constraints, and the first to do so without mixing-time information even in the absence of scalarization.
- Abstract(参考訳): 無限水平平均回帰設定における多くの強化学習(RL)問題は、複数の安全制約を満たすとともに、矛盾する複数の目的を最適化する必要がある。
一般的なアプローチは凹スカラー化(concave scalarization)であり、エージェントは効用を最大化して f(J^π_{r_1}, \ldots, J^π_{r_M}) $ をスカラー化制約として g(J^π_{c_1}, \ldots, J^π_{c_N}) \ge 0 $ とする。
しかし、$f$ と $g$ の非線形性は、ポリシーの漸進的およびアクター批判的手法のバイアスを導入している。なぜなら、勾配は$J^π,$ と $ \mathbb{E}[\partial f(J^π)] \neq \partial f(\mathbb{E}[J^π]) のノイズ的な推定値を用いて評価されなければならないからである。
本研究では,MLMCをベースとした実時間知識を必要とせずに,スキャラライズされた目標のバイアス,制約評価,アクター・クリティカル推定を制御できる,平均回帰MDPに対する原始的2次元自然アクター・クリティカルアルゴリズムを提案する。
このアルゴリズムは, 最適大域収束率と制約違反率を$ \tilde{O}(1/\sqrt{T}) $とする。
我々の知る限り、これは、制約のない平均逆向き設定において、スカラー化された多目的RLを包含する最適な収束を確立する最初の結果であり、スカラー化がない場合でも、混合時間情報なしでそれを実現した最初の結果である。
関連論文リスト
- Breaking the Bias Barrier in Concave Multi-Objective Reinforcement Learning [46.80389197344682]
マルチレベルモンテカルロ推定器を用いた自然ポリシー勾配アルゴリズムを開発した。
提案手法は,最適な$widetildemathcalO(-2)$サンプル複雑性を,$$-optimal Policyを演算する上で達成する。
論文 参考訳(メタデータ) (2026-03-09T15:49:10Z) - Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - Provably Efficient Algorithms for S- and Non-Rectangular Robust MDPs with General Parameterization [85.91302339486673]
我々は、s-正方形および非正方形不確実性集合の下で、一般的な政策パラメータ化を伴うロバストマルコフ決定過程(RMDP)について検討する。
無限状態空間に拡張する一般政策パラメタライゼーションに対する新しいリプシッツ・リプシッツ・スムースネス特性を証明した。
本研究では,S-正方形不確かさに対する勾配降下アルゴリズムと非正方形不確かさに対するFrank-Wolfeアルゴリズムを設計する。
論文 参考訳(メタデータ) (2026-02-11T21:44:20Z) - Global Convergence for Average Reward Constrained MDPs with Primal-Dual Actor Critic Algorithm [31.539921770584005]
本研究では,高収束率を確保しつつ制約を適切に管理するPrimal-Dual Natural Actor-Criticアルゴリズムを提案する。
この結果はマルコフ決定過程の理論的下限と一致し、平均報酬CMDPの理論的探索において新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-05-21T05:49:11Z) - Oblivious Stochastic Composite Optimization [47.48197617884748]
我々のアルゴリズムは問題のパラメータに関する事前の知識なしで収束することを示す。
3つのアルゴリズムは全て、実現可能な集合の直径、リプシッツ定数、あるいは目的関数の滑らかさについて事前の知識なしに機能する。
我々は,フレームワークを比較的大規模に拡張し,大規模半確定プログラム上での手法の効率性と堅牢性を実証する。
論文 参考訳(メタデータ) (2023-06-30T08:34:29Z) - Sharper Model-free Reinforcement Learning for Average-reward Markov
Decision Processes [21.77276136591518]
我々はマルコフ決定過程(MDPs)のための証明可能なモデルフリー強化学習(RL)アルゴリズムを開発した。
シミュレータ設定では,$widetildeO left(fracSAmathrmsp(h*)epsilon2+fracS2Amathrmsp(h*)epsilon2right)$サンプルを用いて,$epsilon$-optimal Policyを求める。
論文 参考訳(メタデータ) (2023-06-28T17:43:19Z) - Scalable Primal-Dual Actor-Critic Method for Safe Multi-Agent RL with
General Utilities [12.104551746465932]
安全マルチエージェント強化学習について検討し、エージェントはそれぞれの安全制約を満たしつつ、局所的な目的の総和をまとめて最大化しようとする。
我々のアルゴリズムは、$mathcalOleft(T-2/3right)$のレートで1次定常点(FOSP)に収束する。
サンプルベースの設定では、高い確率で、我々のアルゴリズムは、$epsilon$-FOSPを達成するために$widetildemathcalOleft(epsilon-3.5right)$サンプルが必要です。
論文 参考訳(メタデータ) (2023-05-27T20:08:35Z) - Provably Efficient Convergence of Primal-Dual Actor-Critic with
Nonlinear Function Approximation [15.319335698574932]
The first efficient convergence result with primal-dual actor-critic with a convergence of $mathcalOleft ascent(Nright)Nright)$ under Polyian sample。
Open GymAI連続制御タスクの結果。
論文 参考訳(メタデータ) (2022-02-28T15:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。