論文の概要: SHAPO: Sharpness-Aware Policy Optimization for Safe Exploration
- arxiv url: http://arxiv.org/abs/2606.10228v1
- Date: Mon, 08 Jun 2026 22:40:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.217477
- Title: SHAPO: Sharpness-Aware Policy Optimization for Safe Exploration
- Title(参考訳): SHAPO: 安全な探索のためのシャープネス対応ポリシー最適化
- Authors: Kaustubh Mani, Yann Pequignot, Vincent Mai, Liam Paull,
- Abstract要約: 安全探索は、安全クリティカルドメインに強化学習(RL)エージェントを配備するための前提条件である。
本稿では、摂動パラメータの勾配を評価するシャープネス対応ポリシー更新ルールであるシャープネス対応ポリシー最適化(SHAPO)を提案する。
この調整は政策の勾配を暗黙的に反映し、安全でない行為の影響を増大させつつ、既に安全である行為からの貢献を誘惑することを示す。
- 参考スコア(独自算出の注目度): 11.82335528833642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safe exploration is a prerequisite for deploying reinforcement learning (RL) agents in safety-critical domains. In this paper, we approach safe exploration through the lens of epistemic uncertainty, where the actor's sensitivity to parameter perturbations serves as a practical proxy for regions of high uncertainty. We propose Sharpness-Aware Policy Optimization (SHAPO), a sharpness-aware policy update rule that evaluates gradients at perturbed parameters, making policy updates pessimistic with respect to the actor's epistemic uncertainty. Analytically we show that this adjustment implicitly reweighs policy gradients, amplifying the influence of rare unsafe actions while tempering contributions from already safe ones, thereby biasing learning toward conservative behavior in under-explored regions. Across several continuous-control tasks, our method consistently improves both safety and task performance over existing baselines, significantly expanding their Pareto frontiers.
- Abstract(参考訳): 安全探索は、安全クリティカルドメインに強化学習(RL)エージェントを配備するための前提条件である。
本稿では,パラメータ摂動に対するアクターの感度が,高い不確実性領域の実用的なプロキシとして機能する,てんかんのレンズによる安全な探索にアプローチする。
本稿では,シャープネス・アウェア・ポリシー・オプティマイゼーション(SHAPO)を提案する。シャープネス・アウェア・ポリシー・オプティマイゼーション(SHAPO)は,変動パラメータの勾配を評価するシャープネス・アウェア・ポリシー・アップデート・ルールである。
分析により、この調整は政策の勾配を暗黙的に反映し、稀な安全でない行動の影響を増大させつつ、既に安全である行動からの貢献を誘引し、未調査地域の保守的行動への学習を偏見させることを示した。
いくつかの連続制御タスクにおいて,本手法は既存のベースラインよりも安全性とタスク性能を常に向上させ,Paretoフロンティアを著しく拡張する。
関連論文リスト
- Constrained Language Model Policy Optimization via Risk-aware Stepwise Alignment [49.2305683068875]
本稿では,リスク認識を政策最適化プロセスに組み込んだ新しいアライメント手法であるリスク対応ステップワイドアライメント(RSA)を提案する。
RSAは、過剰なモデルシフトによって引き起こされるリスクを基準方針から緩和し、低確率で高影響の有害な振る舞いを明示的に抑制する。
実験により, 本手法は高い安全性を確保しつつ, 高い安全性を達成できることが確認された。
論文 参考訳(メタデータ) (2025-12-30T14:38:02Z) - Safety-Biased Policy Optimisation: Towards Hard-Constrained Reinforcement Learning via Trust Regions [7.419036996978718]
安全クリティカルドメインにおける強化学習(RL)は、安全制約に厳格に固執しつつ報酬を最大化することを要求する。
本稿では、制約の厳しいRLのための新しい信頼領域アルゴリズムであるSB-TRPO(Safety-Biased Trust Region Optimization)を提案する。
論文 参考訳(メタデータ) (2025-12-29T07:15:07Z) - Constrained Policy Optimization via Sampling-Based Weight-Space Projection [3.736063711613611]
安全クリティカルな学習は、安全な運用体制を離れることなく、パフォーマンスを向上させる政策を必要とする。
モデルパラメータが未知のロールアウトに基づく安全制約を満たすような制約付きポリシー学習について検討する。
制約関数への勾配アクセスを必要とせずにパラメータ空間内で直接安全を強制する,サンプリングベースの重み空間投影法であるSCPOを提案する。
論文 参考訳(メタデータ) (2025-12-15T19:00:01Z) - Anchoring Refusal Direction: Mitigating Safety Risks in Tuning via Projection Constraint [52.878820730054365]
インストラクションファインチューニング(IFT)は,大規模言語モデル(LLM)の能力向上のための効果的なポストトレーニング戦略として広く採用されている。
LLMの内部機構に関する最近の研究は、隠蔽状態における拒絶方向(r方向)を同定し、拒絶行動の制御において重要な役割を担っている。
このようなドリフトを緩和するため,提案手法では,各トレーニングサンプルの隠れ状態のr方向への投射の大きさを規則化する投射制約損失項を導入する。
論文 参考訳(メタデータ) (2025-09-08T15:24:33Z) - Probabilistic Shielding for Safe Reinforcement Learning [51.35559820893218]
現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。
我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。
当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文 参考訳(メタデータ) (2025-03-09T17:54:33Z) - Concurrent Learning of Policy and Unknown Safety Constraints in Reinforcement Learning [4.14360329494344]
強化学習(Reinforcement Learning, RL)は、過去数十年にわたって、幅広い領域で意思決定に革命をもたらした。
しかし、現実のシナリオにRLポリシーをデプロイすることは、安全性を確保する上で重要な課題である。
従来の安全RLアプローチは、事前に定義された安全制約を政策学習プロセスに組み込むことに重点を置いてきた。
本稿では,安全なRL制御ポリシを同時に学習し,その環境の未知の安全制約パラメータを同定する手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T20:01:15Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。