論文の概要: From Attacks to Curricula: Learnability-Guided Adversarial Training for Safe Autonomous Driving
- arxiv url: http://arxiv.org/abs/2606.14032v1
- Date: Fri, 12 Jun 2026 02:13:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.712026
- Title: From Attacks to Curricula: Learnability-Guided Adversarial Training for Safe Autonomous Driving
- Title(参考訳): 攻撃からカリキュラムへ: 安全な自律運転のための学習性指導型対人訓練
- Authors: Yuewen Mei, Tong Nie, Jie Sun, Haotian Shi, Wei Ma, Jian Sun,
- Abstract要約: AlignADVは学習性誘導型クローズドループ対向トレーニングフレームワークである。
敵のシナリオを解決可能で能力に整合したカリキュラムに変換する。
実験の結果、最大40.6%のトレーニングステップが短縮された。
- 参考スコア(独自算出の注目度): 56.30087557121323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Closed-loop adversarial training improves autonomous driving safety by exposing policies to rare safety-critical scenarios. Standard pipelines first generate adversarial scenarios and then sample them for policy optimization. However, most existing frameworks remain attack-oriented: collision-driven generators often synthesize unsolvable extreme situations, which can degrade learning, while heuristic samplers ignore the evolving capability of the driving policy, causing sample inefficiency and delayed convergence. We propose AlignADV, a learnability-guided closed-loop adversarial training framework that converts adversarial scenarios into resolvable and capability-aligned curricula. First, we reformulate adversarial scenario generation as a preference alignment problem and employ direct preference optimization to guide the generator toward critical yet resolvable scenarios. Second, we introduce behavioral fingerprints to capture the intrinsic characteristics of the evolving policy and construct a multi-modal capability prediction model that estimates policy performance without expensive closed-loop simulations. By combining resolvability-aligned scenarios with capability predictions, AlignADV develops a dynamic curriculum sampling mechanism that prioritizes scenarios targeting the current policy's vulnerabilities. Experiments on the Waymo Open Motion Dataset demonstrate that AlignADV improves convergence efficiency and final performance, reducing training steps by up to 40.6 percent compared with baseline methods while lowering collision rate and improving route completion under both normal and adversarial traffic conditions. These results highlight a shift from attack-oriented scenario generation to learnability-guided policy improvement, offering a principled direction for safer and more efficient autonomous driving training. Project page: https://meiyuewen.github.io/AlignADV/.
- Abstract(参考訳): 閉ループ対向訓練は、まれな安全クリティカルなシナリオにポリシーを公開することにより、自律運転の安全性を向上させる。
標準パイプラインはまず逆シナリオを生成し、次にポリシー最適化のためにそれらをサンプルする。
しかし、既存のほとんどのフレームワークは攻撃指向であり、衝突駆動ジェネレータは、しばしば解けない極端な状況を合成し、学習を劣化させるが、ヒューリスティックサンプリングは、駆動ポリシーの進化する能力を無視し、サンプルの非効率性と遅延収束を引き起こす。
本稿では,AlignADVを提案する。AlignADVは学習性に配慮した閉ループ逆行学習フレームワークで,逆行シナリオを可解かつ能力に整合したカリキュラムに変換する。
まず, 選択調整問題として逆シナリオ生成を再構成し, 直接選好最適化を用いて, 決定的かつ解決可能なシナリオに向けてジェネレータを誘導する。
第二に、進化する政策の本質的な特徴を捉えるために行動指紋を導入し、高価なクローズドループシミュレーションを使わずに政策性能を推定するマルチモーダル能力予測モデルを構築した。
解決可能性に整合したシナリオと能力予測を組み合わせることで、AlignADVは、現在のポリシーの脆弱性をターゲットにしたシナリオを優先順位付けする動的カリキュラムサンプリングメカニズムを開発する。
Waymo Open Motion Datasetの実験では、AlignADVはコンバージェンス効率と最終性能を改善し、ベースライン法と比較してトレーニング手順を最大40.6%削減し、衝突速度を低下させ、通常の交通条件と対向交通条件の両方でルート完了を改善する。
これらの結果は、より安全で効率的な自動運転訓練のための原則化された方向性を提供する、攻撃指向シナリオ生成から学習可能性誘導型ポリシー改善への移行を浮き彫りにしている。
プロジェクトページ:https://meiyuewen.github.io/AlignADV/。
関連論文リスト
- ADV-0: Closed-Loop Min-Max Adversarial Training for Long-Tail Robustness in Autonomous Driving [63.980630608984605]
本稿では、ゼロサムマルコフゲームとして、駆動ポリシー(ディフェンダー)と敵エージェント(アタックラー)の相互作用を扱うクローズドループのmin-max最適化フレームワークであるADV-0を提案する。
これを実現するため,我々は動的敵の進化を反復的な選好学習とし,この最適性を効率的に近似し,アルゴリズムに依存しない解をゲームに提供する。
実験により、多様な安全クリティカルな障害を効果的に露呈し、学習方針と運動プランナーの両方の一般化可能性を大幅に向上させることが示されている。
論文 参考訳(メタデータ) (2026-03-16T12:58:31Z) - Model-Based Policy Adaptation for Closed-Loop End-to-End Autonomous Driving [54.46325690390831]
本稿では,事前学習したE2E運転エージェントのロバスト性と安全性を高めるための汎用フレームワークとして,モデルベースポリシー適応(MPA)を提案する。
MPAは、ジオメトリ一貫性のあるシミュレーションエンジンを用いて、まず様々な対物軌道を生成する。
MPAは拡散ベースのポリシーアダプタを訓練し、基本方針の予測を洗練させ、Q値モデルを多段階に分けて長期的な結果を評価する。
論文 参考訳(メタデータ) (2025-11-26T17:01:41Z) - Automatic Curriculum Learning for Driving Scenarios: Towards Robust and Efficient Reinforcement Learning [11.602831593017427]
本稿では、強化学習(RL)を用いたエンドツーエンド自動運転エージェントの訓練の課題について述べる。
RLエージェントは通常、シミュレーションにおいて周囲の道路利用者の一定のシナリオと名目上の振る舞いで訓練される。
本稿では,エージェントの進化能力に基づいて,適応性のある複雑な運転シナリオを動的に生成する自動カリキュラム学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-13T06:26:57Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Continual Driving Policy Optimization with Closed-Loop Individualized Curricula [2.903150959383393]
閉ループ個別化カリキュラム(CLIC)を特徴とする連続運転ポリシー最適化フレームワークを開発した。
CLICは衝突予測タスクとしてAV評価をフレーム化し、各イテレーションでこれらのシナリオでAV障害が起こる確率を見積もる。
CLICは他のカリキュラムベースのトレーニング戦略を超越し、リスクのあるシナリオの管理を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-25T15:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。