論文の概要: Provably Safe, Yet Scalable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.14536v1
- Date: Fri, 12 Jun 2026 15:13:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.954617
- Title: Provably Safe, Yet Scalable Reinforcement Learning
- Title(参考訳): おそらく安全だがスケーラブルな強化学習
- Authors: Kai S. Yun, Zeyang Li, Navid Azizan,
- Abstract要約: 本稿では,安全なポリシをスケーラブルに学習するための新しいフレームワークを提案する。
PS2-RLは基礎となるRLアルゴリズムに制限を課さず、既存のトレーニングパイプラインにプラグインできる。
状態次元が最大10のロボット制御タスクで評価した。
- 参考スコア(独自算出の注目度): 4.249024052507976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safe reinforcement learning (RL) aims to learn policies that optimize rewards while satisfying constraints. Predominant approaches rely on soft-constrained policy optimization, which has achieved empirical success but does not provide formal safety guarantees for the learned policy. In contrast, methods with strict guarantees typically rely on explicit certificate functions, whose construction requires the direct synthesis and verification of control-invariant sets, a process that scales poorly with state dimension and often yields overly conservative behavior. In this paper, we present the Provably Safe, yet Scalable RL (PS2-RL) framework, a novel two-phase architecture for learning provably safe policies in a scalable manner, designed to overcome the key bottlenecks of prior methods. Rather than explicitly computing invariant sets, PS2-RL leverages a learned backup policy to forward-integrate the system dynamics, generating an implicit control-invariant set online. In the first phase, the backup policy is trained with our proposed safe-arrival value function, which characterizes the optimal backup policy for invariant-set construction. In the second phase, an RL policy is trained end-to-end through a differentiable projection layer that strictly enforces the safety guarantees induced by the learned backup policy. By maximizing the volume of the implicit control-invariant set in the first phase, the resulting PS2 policy from the second phase is performant and scalable, while maintaining provable safety. Crucially, PS2-RL imposes no restrictions on the underlying RL algorithm and can be plugged into any existing training pipeline. We establish theoretical guarantees for the proposed framework and evaluate it on robotic control tasks with state dimensions up to 10, a regime in which prior provably safe RL methods struggle or become impractical.
- Abstract(参考訳): 安全強化学習(RL)は、制約を満たすことなく報酬を最適化する政策を学ぶことを目的としている。
事前のアプローチは、経験的な成功を達成しているが、学習したポリシーに対して正式な安全保証を提供していない、ソフト制約されたポリシー最適化に依存している。
対照的に、厳密な保証を持つ方法は典型的には明示的な証明関数に依存しており、その構成には制御不変集合の直接合成と検証が必要である。
本稿では,提案するProvably Safe, Scalable RL (PS2-RL) フレームワークについて述べる。
明示的に不変集合を計算するのではなく、PS2-RLは学習したバックアップポリシーを利用してシステムのダイナミクスを前方統合し、暗黙の制御不変集合をオンラインで生成する。
第1フェーズでは、不変集合構築のための最適バックアップポリシーを特徴付ける安全領域値関数を用いて、バックアップポリシーを訓練する。
第2フェーズでは、RLポリシーは、学習したバックアップポリシーによって引き起こされる安全保証を厳格に強制する、微分可能なプロジェクション層を介してエンドツーエンドに訓練される。
第1フェーズにおける暗黙的な制御不変量の最大化により、証明可能な安全性を維持しつつ、第2フェーズからのPS2ポリシーが実行可能でスケーラブルになる。
重要なことは、PS2-RLは基礎となるRLアルゴリズムに制限を課さず、既存のトレーニングパイプラインにプラグインできる。
提案手法の理論的保証を確立し, 最大10次元のロボット制御タスクで評価する。
関連論文リスト
- Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning [50.738952715864116]
表現的連続制御ポリシは、シミュレーションされた実ロボット制御のための模倣学習のスケーリングにおける進歩のバックボーンを形成する。
テスト時に完全にポリシー最適化を行うRLアルゴリズムであるQGF(Q-Guided Flow)を提案する。
実証的には、QGFはシングルタスクおよびゴール条件のオフラインRLベンチマークにおいて、以前のテスト時間RLメソッドよりも優れている。
論文 参考訳(メタデータ) (2026-06-09T16:45:57Z) - Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。
本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T22:03:35Z) - Concurrent Learning of Policy and Unknown Safety Constraints in Reinforcement Learning [4.14360329494344]
強化学習(Reinforcement Learning, RL)は、過去数十年にわたって、幅広い領域で意思決定に革命をもたらした。
しかし、現実のシナリオにRLポリシーをデプロイすることは、安全性を確保する上で重要な課題である。
従来の安全RLアプローチは、事前に定義された安全制約を政策学習プロセスに組み込むことに重点を置いてきた。
本稿では,安全なRL制御ポリシを同時に学習し,その環境の未知の安全制約パラメータを同定する手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T20:01:15Z) - Constraint-Conditioned Policy Optimization for Versatile Safe Reinforcement Learning [33.988698754176646]
本稿では,2つのモジュールからなる条件付き制約付き政策最適化(CCPO)フレームワークを紹介する。
実験の結果,CCPOは安全性とタスク性能の点で基準線を上回っていることがわかった。
これにより、我々のアプローチは実世界の動的アプリケーションに適している。
論文 参考訳(メタデータ) (2023-10-05T17:39:02Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。