論文の概要: Imagine to Ensure Safety in Hierarchical Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.22509v1
- Date: Sun, 21 Jun 2026 14:04:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 21:38:13.212313
- Title: Imagine to Ensure Safety in Hierarchical Reinforcement Learning
- Title(参考訳): 階層的強化学習における安全性の確保を願う
- Authors: Gregory Gorbov, Artem Latyshev, Aleksandr I. Panov,
- Abstract要約: 本研究は、エージェントが安全性の制約を同時に満たしながら累積性能を最大化しなければならない強化学習における安全な探索問題について検討する。
本稿では,学習可能な世界モデルと相補的な2つのポリシー,ハイレベルポリシーと低レベルポリシーを組み合わせることで,両階層レベルでの安全性を促進する手法を提案する。
- 参考スコア(独自算出の注目度): 45.208325853591475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work investigates the safe exploration problem in reinforcement learning, where an agent must maximize cumulative performance while simultaneously satisfying safety constraints. This challenge becomes even more pronounced in long-horizon tasks, where existing safe methods face fundamental limitations due to compounding estimation errors and restricted exploration capabilities. To address this problem, we propose a method that combines a learnable world model with two complementary policies a high-level policy and a low-level policy to promote safety at both hierarchical levels. The high-level policy generates intermediate subgoals that bias exploration toward safe regions, while the low-level policy uses imagined rollouts in the learned world model to reduce unsafe behaviors when reaching these subgoals. The proposed method was evaluated on challenging long-horizon navigation and manipulation tasks with high-dimensional action spaces, where it significantly outperforms existing Safe RL baselines in both success rate and strong empirical constraint satisfaction, consistently meeting the prescribed safety budget across seeds, while prior approaches fail to effectively solve these complex long-horizon scenarios.
- Abstract(参考訳): 本研究は、エージェントが安全性の制約を同時に満たしながら累積性能を最大化しなければならない強化学習における安全な探索問題について検討する。
この課題は、既存の安全なメソッドが推定誤差と制限された探索能力の複合による根本的な制限に直面している、長期的タスクにおいてさらに顕著になる。
この問題に対処するために,学習可能な世界モデルと相補的な2つのポリシー,ハイレベルポリシーと低レベルポリシーを組み合わせることで,両階層レベルでの安全性を促進する手法を提案する。
高レベル政策は、安全な領域への偏見を求める中間的なサブゴールを生成し、低レベル政策は、これらのサブゴールに到達する際の安全でない振る舞いを減らすために、学習された世界のモデルにおける想像上のロールアウトを使用する。
提案手法は, 高次元行動空間を用いた長距離ナビゲーション・操作課題において, 既往の安全RLベースラインを, 成功率, 強い経験的制約満足度で著しく上回り, 種子間で所定の安全予算を一貫して満たす一方で, 従来の手法ではこれらの複雑な長距離シナリオを効果的に解決できなかった。
関連論文リスト
- Safety Representations for Safer Policy Learning [12.492942288509878]
安全クリティカルな応用では、国家空間の探索は破滅的な結果をもたらす可能性がある。
既存の安全な探査手法は、制約を課すことによってこれを緩和しようとする。
状態条件付き安全表現を明示的に学習する手法を提案する。
論文 参考訳(メタデータ) (2025-02-27T18:10:33Z) - Safe Policy Exploration Improvement via Subgoals [44.07721205323709]
強化学習(Reinforcement learning)は、自律ナビゲーションにおいて広く使われているアプローチであり、様々なタスクやロボットのセットアップの可能性を示している。
このようなセットアップでパフォーマンスが低かった理由の1つは、安全制約を尊重する必要性がRLエージェントの探索能力を低下させることである。
本稿では,初期問題を中間目標を介し,より小さなサブプロブレムに分解する新しい学習可能アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-25T16:12:49Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - State-Wise Safe Reinforcement Learning With Pixel Observations [12.338614299403305]
本稿では,未知の危険領域に対する安全性の制約を効率的にエンコードする,新しい画素オブザービングセーフなRLアルゴリズムを提案する。
共同学習の枠組みとして,画素観測から導出した低次元潜在空間を用いた潜在力学モデルの構築から着目する。
次に、潜時力学の上に潜時バリアのような機能を構築・学習し、同時にポリシー最適化を行い、それによって安全性と総リターンの両方を改善します。
論文 参考訳(メタデータ) (2023-11-03T20:32:30Z) - Safe Reinforcement Learning with Dead-Ends Avoidance and Recovery [13.333197887318168]
安全は、現実的な環境課題に強化学習を適用する上で大きな課題の1つである。
安全かつ安全でない状態を識別する境界を構築する手法を提案する。
我々の手法は、最先端のアルゴリズムよりも安全性違反が少ないタスク性能を持つ。
論文 参考訳(メタデータ) (2023-06-24T12:02:50Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Neural Certificates for Safe Control Policies [108.4560749465701]
本稿では,安全かつ目標達成の両立が保証される動的システムの方針を学習するためのアプローチを開発する。
本手法の有効性は, 振り子, カートポール, UAVなどの各種システムにおいて, 安全かつ目標達成的な政策を学習するための手法の有効性を示す。
論文 参考訳(メタデータ) (2020-06-15T15:14:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。