論文の概要: CSPO: Constraint-Sensitive Policy Optimization for Safe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.14415v1
- Date: Fri, 12 Jun 2026 12:48:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.901402
- Title: CSPO: Constraint-Sensitive Policy Optimization for Safe Reinforcement Learning
- Title(参考訳): CSPO:安全強化学習のための制約型政策最適化
- Authors: Ayoub Belouadah, Sylvain Kubler, Yves Le Traon,
- Abstract要約: 本稿では,局所的制約感度をポリシー更新に組み込む一階法である制約感作政策最適化(CSPO:Constraint-Sensitive Policy Optimization)を提案する。
CSPOは、最も短い符号付き距離から安全境界までの制約に敏感な補正により、主目的を増強し、よりスマートな回復ステップを安全に戻すことができる。
ナビゲーションと移動ベンチマークの実験では、CSPOはより高速な安全回復と高い報酬保存を実現し、より高い制約付きリターンをもたらすことが示されている。
- 参考スコア(独自算出の注目度): 9.011823422505378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safe reinforcement learning (Safe RL) aims to maximize expected return while satisfying safety constraints, typically modeled as Constrained Markov Decision Processes (CMDPs). While primal-dual methods scale well to deep RL, they often suffer from delayed constraint correction, leading to oscillatory behavior and prolonged safety violations. In this paper, we propose Constraint-Sensitive Policy Optimization (CSPO), a first-order primal-dual method that incorporates local constraint sensitivity into policy updates. CSPO augments the primal objective with a constraint-sensitive correction derived from the shortest signed distance to the safety boundary, enabling smarter recovery steps back to safety, compensating for delayed Lagrange multiplier updates, reducing oscillations near the boundary, and preserving the KKT solutions of the original constrained problem. Experiments on navigation and locomotion benchmarks demonstrate that CSPO achieves faster safety recovery and high reward preservation, resulting in higher constrained returns compared to state-of-the-art primal-dual and penalty-based methods
- Abstract(参考訳): 安全強化学習(Safe RL)は、安全制約を満たしつつ、期待されるリターンを最大化することを目的としており、通常、制約付きマルコフ決定プロセス(CMDP)としてモデル化される。
原始双対法は深度RLによくスケールするが、しばしば遅延した制約補正に悩まされ、振動挙動や長時間の安全違反を引き起こす。
本稿では,局所的制約感度をポリシー更新に組み込んだ一階法であるCSPO(Constraint-Sensitive Policy Optimization)を提案する。
CSPOは、最短符号距離から安全境界までの制約に敏感な補正を行い、よりスマートな回復ステップを安全にし、遅延ラグランジュ乗算器更新を補償し、境界付近での振動を低減し、元の制約された問題のKKT解を保存する。
ナビゲーションと移動ベンチマークの実験により、CSPOはより高速な安全回復と高い報酬保存を実現し、最先端のプリマルデュアル法やペナルティベース法と比較して高い制約付きリターンをもたらすことが示された。
関連論文リスト
- Near-Constant Strong Violation and Last-Iterate Convergence for Online CMDPs via Decaying Safety Margins [31.581870065866568]
制約付きマルコフ決定過程(CMDP)における安全なオンライン強化学習を,強い後悔と違反の指標の下で研究する。
サブリニアの強い報酬を後悔させる既存の原始二重法は、強い制約違反の増大を招いたり、あるいは固有振動による平均点収束に制限されたりしている。
本稿では,マルチ正規化探索(FlexDOME)アルゴリズムによるフレキシブルセーフティドメイン最適化を提案する。
論文 参考訳(メタデータ) (2026-02-11T14:54:26Z) - Constraint-Aware Reinforcement Learning via Adaptive Action Scaling [6.6638441348404855]
本稿では,予測制約違反に基づいてエージェントの行動をスケールするモジュール型コスト認識レギュレータを提案する。
規制当局は、行動の抑制を回避しつつ、制約違反を最小限に抑えるよう訓練されている。
提案手法は, SAC や TD3 などの非政治的 RL 手法とシームレスに連携し, 安全ガイムの移動作業における最先端のリターン・ツー・コスト比を実現する。
論文 参考訳(メタデータ) (2025-10-13T14:59:28Z) - Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。
RRPOは双対の定式化に頼ることなく、主問題に直接作用する。
我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2025-08-24T16:59:38Z) - Viability of Future Actions: Robust Safety in Reinforcement Learning via Entropy Regularization [47.30677525394649]
モデルレス強化学習における2つの確立された技術間の相互作用を解析する。
本研究では,制約付きRLにおけるエントロピー規則化が,将来の活動回数を最大化するために学習に偏りを生じさせることを示す。
エントロピー正則化とロバストネスの関連性は、さらなる実証的・理論的研究の道のりとして有望である。
論文 参考訳(メタデータ) (2025-06-12T16:34:19Z) - Safe Reinforcement Learning using Finite-Horizon Gradient-based Estimation [25.552241659930445]
セーフ強化学習(Safe RL)の主な側面は、次のポリシーの制約条件を推定することである。
既存の推定方法は無限水平割引利得関数に依存している。
深部安全RLにおける有限水平非分散制約の第一推定法を提案する。
論文 参考訳(メタデータ) (2024-12-15T10:05:23Z) - Embedding Safety into RL: A New Take on Trust Region Methods [1.5733417396701983]
我々は,信頼領域が安全な政策のみを含むことを保証するために,政策空間を再設定する制約付きトラスト地域政策最適化(C-TRPO)を導入する。
実験により、C-TRPOは競合リターンを維持しながら制約違反を低減することが示された。
論文 参考訳(メタデータ) (2024-11-05T09:55:50Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。