論文の概要: Utility-Constrained Policy Optimization
- arxiv url: http://arxiv.org/abs/2606.14029v1
- Date: Fri, 12 Jun 2026 02:07:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.708887
- Title: Utility-Constrained Policy Optimization
- Title(参考訳): 実用性に制約のある政策最適化
- Authors: Mehrdad Moghimi, Bernardo Avila Pires,
- Abstract要約: 拘束型MDP(CMDP)は、安全をRLエージェントに組み込むための広く採用されているフレームワークである。
CMDPは、しばしば起こる破滅的な行動と、頻繁に、過度に保守的な行動とを混合する最適解を可能にする。
本稿では,UCMDPと制約付きRLの簡易かつ強力な手法を提案する。
- 参考スコア(独自算出の注目度): 0.1917432112954219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constrained MDPs (CMDPs) are a widely adopted framework for incorporating safety into RL agents; however, the framework does not support risk-sensitive constraints. This can be problematic: For example, CMDPs allow for optimal solutions that, in order to satisfy the risk-neutral constraints, mix infrequent catastrophic behaviors and frequent, overly conservative ones. Moreover, prior empirical results suggest that enforcing stricter, risk-sensitive constraints can improve performance even under risk-neutral evaluation. The natural framework to incorporate risk-sensitive constraints is utility-constrained MDPs (UCMDPs), but no practical solutions for this problem existed. In this work, we introduce a simple yet powerful methodology for UCMDPs and constrained RL. Besides allowing for risk-sensitive constraints, our framework does not require us to fix constraint limits in advance of training the agent, provided that a sensible range is known. This increases policy flexibility and, in practice, allows for adjustments to these limits at no extra training cost. Besides benefiting from the generality of the framework, our agent shows strong performance in practice, consistently matching or outperforming existing baselines in several Safety Gymnasium benchmark tasks.
- Abstract(参考訳): 拘束型MDP(CMDP)は、安全をRLエージェントに組み込むフレームワークとして広く採用されているが、リスクに敏感な制約をサポートしていない。
例えば、CMDPは、リスク中立性の制約を満たすために、頻繁な破滅的な行動と過度に保守的な行動を混合する最適な解決策を許容する。
さらに, リスクニュートラル評価においても, より厳密でリスクに敏感な制約を適用すれば, 性能が向上する可能性が示唆された。
リスクに敏感な制約を組み込むための自然な枠組みは、ユーティリティ制約付きMDP (UCMDP) である。
本稿では,UCMDPと制約付きRLの簡易かつ強力な方法論を提案する。
我々のフレームワークは、リスクに敏感な制約を許容するだけでなく、適切な範囲が分かっている場合、エージェントの訓練に先立って制約制限を修正する必要もない。
これにより、政策の柔軟性が向上し、実際には追加の訓練コストなしでこれらの制限を調整できる。
フレームワークの汎用性によるメリットに加えて、当社のエージェントは、いくつかのSafety Gymnasiumベンチマークタスクにおいて、既存のベースラインの整合性や性能を一貫して向上させ、実践的なパフォーマンスを示す。
関連論文リスト
- BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search [72.87861928940929]
バウンダリ・アウェア・ポリシー・オプティマイゼーション(BAPO)は、信頼性の高い境界認識を精度を損なうことなく育成する新しいRLフレームワークである。
BAPOは2つの重要な要素を導入する: (i) グループベースの境界対応報酬(i) 推論が限界に達したときのみIDK応答を促進させる) 適応報酬変調器(ii) 早期探索中にこの報酬を戦略的に停止させ、モデルがIDKをショートカットとして利用するのを防ぐ。
論文 参考訳(メタデータ) (2026-01-16T07:06:58Z) - Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning [52.03884701766989]
オフライン強化学習(RL)アルゴリズムは、通常、アクション選択に制約を課す。
本稿では,Bellmanターゲットにおける行動選択を,データセットアクションの近傍の結合に制限する新しい地区制約を提案する。
我々は,この制約を満たす目標動作を用いてQ学習を行うための,単純で効果的なアルゴリズムであるAdaptive Neighborhood-Constrained Q Learning(ANQ)を開発した。
論文 参考訳(メタデータ) (2025-11-04T13:42:05Z) - Risk-Averse Constrained Reinforcement Learning with Optimized Certainty Equivalents [29.698100324454362]
制約付き最適化は強化学習(RL)における競合する目的を扱う共通のフレームワークを提供する
本稿では,最適化された確実性等価量(OCE)を用いて,報酬値と時間とともにステージごとの特性を示すリスク対応制約付きRLの枠組みを提案する。
本フレームワークは,パラメータ化された強ラグランジアン双対性フレームワークにおいて,適切な制約条件下での元の制約問題と正確に一致することを保証している。
論文 参考訳(メタデータ) (2025-10-23T04:33:32Z) - Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。
RRPOは双対の定式化に頼ることなく、主問題に直接作用する。
我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2025-08-24T16:59:38Z) - Embedding Safety into RL: A New Take on Trust Region Methods [1.5733417396701983]
我々は,信頼領域が安全な政策のみを含むことを保証するために,政策空間を再設定する制約付きトラスト地域政策最適化(C-TRPO)を導入する。
実験により、C-TRPOは競合リターンを維持しながら制約違反を低減することが示された。
論文 参考訳(メタデータ) (2024-11-05T09:55:50Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Lyapunov Barrier Policy Optimization [15.364174084072872]
本稿では,lyapunovベースのバリア関数を用いて,トレーニングイテレーション毎にポリシ更新をセーフセットに制限する手法であるlbpoを提案する。
また,本手法により,環境の制約に対して,エージェントの保守性を制御できる。
論文 参考訳(メタデータ) (2021-03-16T17:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。