論文の概要: Safe Reinforcement Learning of Autonomous Highway Driving: A Unified Framework for Safety and Efficiency
- arxiv url: http://arxiv.org/abs/2606.14609v1
- Date: Fri, 12 Jun 2026 16:32:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.989785
- Title: Safe Reinforcement Learning of Autonomous Highway Driving: A Unified Framework for Safety and Efficiency
- Title(参考訳): 自動運転車の安全強化学習--安全と効率の統一フレームワーク
- Authors: Chufei Yan, Zhihao Cui, Yiyan Lv, Taojie Chen, Ning Bian, Yulei Wang,
- Abstract要約: 我々は、安全な距離、報酬機(RM)、およびMix of-experts(MoE)を統合した統合型安全強化学習(SRL)フレームワークを提案する。
2車線の交通実験により、MoE-RM-SRLは最先端のベースラインよりも安全性と効率を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 2.6655248034321724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) offers a compelling route to decision-making for advanced autonomous vehicles (AVs), yet its trial-and-error nature makes it difficult to guarantee safety during training and to achieve both safety and efficiency at deployment. We propose a unified safe reinforcement learning (SRL) framework that integrates safe distance (SD), reward machines (RM), and mixture-of-experts (MoE), termed MoE-RM-SRL. For deployment, SD and RM jointly shape a rule-aware reward that encodes highway traffic regulations and stage-wise objectives, enabling safe and reliable behavior without sacrificing efficiency. For training, we introduce a sparsely gated MoE layer comprising up to 11 deep Q-networks (DQNs); an SD-based gating rule activates a minimal set of experts for lane-keeping and lane-changing, mitigating the instability, discontinuities, and impulsive transients commonly induced by switching between heterogeneous controllers (e.g., MPC/rule-based modules and learned policies). We implement the proposed architecture in CARLA and integrate it with a 6-DoF driver-in-the-loop virtual-reality (DiL-VR) platform. Experiments in stochastic two-lane traffic show that MoE-RM-SRL substantially improves safety and efficiency over state-of-the-art baselines, and the framework naturally extends to multi-lane driving as well as on-ramp merging and exiting scenarios.
- Abstract(参考訳): 深層強化学習(DRL)は、先進的な自動運転車(AV)の意思決定に魅力的な道筋を提供するが、その試行錯誤の性質は、訓練中の安全性を保証し、展開時の安全性と効率の両方を達成するのを困難にしている。
安全距離(SD)、報酬機(RM)、Mix-of-experts(MoE)を統合した統合型安全強化学習(SRL)フレームワークを提案する。
SDとRMは共同で、高速道路の交通規制と段階的な目的を符号化し、効率を犠牲にすることなく安全で信頼性の高い行動を可能にするルール対応の報酬を形成する。
トレーニングでは,最大11の深度Q-networks (DQNs) からなる疎ゲートMOE層を導入し,SDベースのゲーティングルールにより,不均一なコントローラ(例えば,MPC/ルールベースモジュールや学習ポリシ)間の切り替えによって生じる不安定性,不連続性,衝動的過渡性を緩和し,レーン維持およびレーン変更の専門家の最小セットを活性化する。
提案アーキテクチャをCARLAで実装し、6-DoFドライバ・イン・ザ・ループ仮想現実性(DiL-VR)プラットフォームと統合する。
確率的2車線交通の実験では、MoE-RM-SRLは最先端のベースラインよりも安全性と効率を著しく向上し、このフレームワークは自然にマルチレーン駆動やオンランプマージやエグジットシナリオにまで拡張されている。
関連論文リスト
- MESA: Improving MoE Safety Alignment via Decentralized Expertise [55.2978630005606]
MESA(MoE Safety Alignment)は、MoEベースの大規模言語モデルを対象としたアライメントフレームワークである。
安全責任を戦略的に分散し、カバー範囲を最大化し、実用性への干渉を最小限にする。
MESAは様々な有害なベンチマークに対して堅牢な防御性能を達成し、有用性を維持する。
論文 参考訳(メタデータ) (2026-05-30T09:54:38Z) - SARAD: LLM-Based Safety-Aware Hybrid Reinforcement Learning with Collision Prediction for Autonomous Driving [22.134329848099142]
従来のDeep Reinforcement Learning (DRL)は、安全でないランダムな探索と緩やかな収束に悩まされている。
大規模言語モデル(LLM)は、リアルタイム推論操作に固有の遅延を示す。
本稿では,自律走行のためのLLMとDRLを相乗化する安全対応ハイブリッドフレームワークSARADを提案する。
論文 参考訳(メタデータ) (2026-05-27T15:06:34Z) - BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - IRL-DAL: Safe and Adaptive Trajectory Planning for Autonomous Driving via Energy-Guided Diffusion Models [0.0]
本稿では,自動車用拡散型適応型ルックアヘッドプランナ(IRL-DAL)を用いた新しい逆強化学習フレームワークを提案する。
96%の成功率に達し、衝突は1kステップあたり0.05に減少し、安全なナビゲーションのための新しいベンチマークとなる。
論文 参考訳(メタデータ) (2026-01-30T18:34:10Z) - COSMO-RL: Towards Trustworthy LMRMs via Joint Safety and Stability [101.80200069234377]
COSMO-RLは,マルチモーダル・マルチタスク・マルチオブジェクト信号下でLMRMを学習する混合強化学習フレームワークである。
我々のアプローチは、アライメント中に競合するのではなく、安全と能力をひとつの安定したパイプラインで一緒に成長させることを目的としています。
論文 参考訳(メタデータ) (2025-10-05T13:30:03Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - SafeDrive: Knowledge- and Data-Driven Risk-Sensitive Decision-Making for Autonomous Vehicles with Large Language Models [14.790308656087316]
SafeDriveは、自律運転の安全性と適応性を高めるための、知識とデータ駆動型リスクに敏感な意思決定フレームワークである。
知識駆動型洞察と適応学習機構を統合することにより、不確実な条件下での堅牢な意思決定を保証する。
論文 参考訳(メタデータ) (2024-12-17T16:45:27Z) - CIMRL: Combining IMitation and Reinforcement Learning for Safe Autonomous Driving [45.05135725542318]
CIMRL(imitation and Reinforcement Learning)アプローチは、模倣動作の先行と安全性の制約を活用することで、シミュレーションにおける運転ポリシーのトレーニングを可能にする。
RLと模倣を組み合わせることで, クローズドループシミュレーションと実世界の運転ベンチマークにおいて, 最先端の結果が得られたことを実証する。
論文 参考訳(メタデータ) (2024-06-13T07:31:29Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。