論文の概要: Scaling Self-Play for End-to-End Driving
- arxiv url: http://arxiv.org/abs/2606.19641v2
- Date: Fri, 19 Jun 2026 17:53:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:14.864989
- Title: Scaling Self-Play for End-to-End Driving
- Title(参考訳): エンド・ツー・エンド運転におけるセルフプレイのスケーリング
- Authors: Luke Rowe, Roger Girgis, Rodrigue de Schaetzen, Daphne Cornelisse, Alaap Grandhi, Felix Heide, Eugene Vinitsky, Christopher Pal, Liam Paull,
- Abstract要約: Gigapixelは、視点レンダリングを備えた高スループットバッチ駆動シミュレータである。
我々は、特権的なRL教師からのオンライン蒸留を通じて、自己再生における画素ベースの政策を訓練する。
我々は、自己学習されたポリシーを、軽量な知覚適応を通して現実世界のセンサーデータに転送する。
- 参考スコア(独自算出の注目度): 40.15606566638922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end autonomous driving models are typically trained on offline human-demonstration datasets that provide limited state coverage and often no closed-loop feedback, making them prone to compounding errors when deployed in closed-loop and brittle to long-tail agent interactions. To overcome these limitations, we propose an alternative strategy for training end-to-end driving models: large-scale self-play directly from pixels in simulation. While prior self-play approaches have shown promising transfer to real-world driving, they typically assume vectorized Bird's-Eye-View (BEV) observations that are incompatible with end-to-end policies operating directly on sensor observations. To this end, we introduce Gigapixel, a high-throughput batched driving simulator with perspective rendering, enabling scalable self-play directly from pixel observations. Rather than targeting compute-costly photorealistic sensor simulation, Gigapixel renders a simplified bounding-box world that preserves essential scene structure while achieving throughput at 50k agent steps per second. Since direct pixel-space self-play RL is prohibitively sample-inefficient at end-to-end model scale, we propose self-play DAgger training: we train pixel-based policies in self-play via on-policy distillation from a privileged RL teacher. To bridge the sim-to-real gap, we subsequently transfer the self-play trained policies to real-world sensor data through lightweight perception adaptation. Policies trained in Gigapixel and adapted to real-world sensor data achieve competitive performance on the HUGSIM and NAVSIM-v2 benchmarks without human trajectory supervision. Moreover, scaling self-play training yields proportional gains in policy performance, establishing self-play as a practical and scalable strategy for training end-to-end models.
- Abstract(参考訳): エンド・ツー・エンドの自律運転モデルは、通常、オフラインのヒューマン・デモストレーションデータセットでトレーニングされ、状態カバレッジが制限され、クローズドループのフィードバックがないことが多いため、クローズドループにデプロイされた時にエラーを複雑にし、ロングテールエージェントのインタラクションが不安定になる。
これらの制約を克服するために,シミュレーションにおいて画素から直接大規模自己再生を行うエンド・ツー・エンドの運転モデルを訓練するための代替戦略を提案する。
以前のセルフプレイアプローチは現実の運転に有望な移行を示してきたが、通常はベクトル化されたバードズ・アイビュー(BEV)の観察を前提としており、センサーの観察を直接操作するエンドツーエンドのポリシーとは相容れない。
この目的のために,高スループットバッチ駆動シミュレータであるGigapixelを導入し,画素観察から直接,スケーラブルなセルフプレイを実現する。
Gigapixelは計算コストのかかるフォトリアリスティックセンサーシミュレーションをターゲットとするのではなく、単純なバウンディングボックスの世界でシーン構造を保存し、毎秒50kのエージェントステップでスループットを達成している。
直接的な画素空間の自己再生RLは、エンドツーエンドのモデルスケールでは非効率にサンプル非効率であるため、我々は、特権的なRL教師からのオンライン蒸留を通じて、自己再生における画素ベースのポリシーを訓練する自己再生DAggerトレーニングを提案する。
シミュレーションと現実のギャップを埋めるために、我々はその後、ライトウェイトな知覚適応を通して、自己再生訓練されたポリシーを実世界のセンサーデータに転送する。
Gigapixelで訓練され、現実世界のセンサーデータに適応したポリシーは、人間の軌道監視なしでHUGSIMとNAVSIM-v2ベンチマークで競合性能を達成する。
さらに、セルフプレイトレーニングのスケールはポリシーのパフォーマンスに比例して向上し、エンドツーエンドモデルをトレーニングするための実用的でスケーラブルな戦略としてセルフプレイを確立する。
関連論文リスト
- TerraTransfer: Learning End-to-End Driving Policies Without Expert Demonstrations [21.33643567755425]
我々は、自己プレイによる単一のポリシーを事前訓練し、その潜在空間を予め訓練された視覚バックボーンと整列させ、アクションKLの発散とバッチ関係の低ランク構造損失を通した。
フォトリアリスティックな3Dガウススプラッティング・クローズドループのシナリオでは、結果として得られるエンドツーエンドのポリシーは、以前のエンドツーエンドの手法と一致するか、あるいは超える。
論文 参考訳(メタデータ) (2026-06-16T00:45:01Z) - SPACeR: Self-Play Anchoring with Centralized Reference Models [50.55045557371374]
Simエージェントポリシーは、現実的で、人間らしく、高速で、マルチエージェント設定でスケーラブルである。
大規模な拡散モデルやトークン化モデルを用いた模倣学習の最近の進歩は、人間の運転データから直接行動を把握することができることを示している。
本研究では,事前訓練されたトークン化自己回帰運動モデルを利用したSPACeRを提案する。
論文 参考訳(メタデータ) (2025-10-20T19:53:02Z) - ReconDreamer-RL: Enhancing Reinforcement Learning via Diffusion-based Scene Reconstruction [26.402373173809753]
ReconDreamer-RLは、ビデオ拡散前処理をシーン再構成に統合し、強化学習を支援するためのフレームワークである。
ReconDreamer-RLは、衝突率を5倍に下げた模倣学習法よりも優れた、エンドツーエンドの自動運転訓練を改善する。
論文 参考訳(メタデータ) (2025-08-11T16:45:55Z) - Learning to Track Any Points from Human Motion [55.831218129679144]
点追跡のための擬似ラベル付きトレーニングデータを生成する自動パイプラインを提案する。
AnthroTAPでトレーニングされた点追跡モデルは、TAP-Vidベンチマークで注釈付き最先端性能を達成する。
論文 参考訳(メタデータ) (2025-07-08T17:59:58Z) - Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
本稿では,LAW(Latent World Model)を用いたエンドツーエンド運転のための自己教師型学習手法を提案する。
LAWは、現在の特徴とエゴ軌道に基づいて将来のシーン機能を予測する。
この自己監督タスクは、知覚のない、知覚に基づくフレームワークにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-12T17:59:21Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Nocturne: a scalable driving benchmark for bringing multi-agent learning
one step closer to the real world [11.069445871185744]
部分観測可能性下でのマルチエージェント協調を調査するための新しい2次元駆動シミュレータである textitNocturne を導入する。
Nocturneの焦点は、コンピュータビジョンの計算オーバーヘッドや画像からの特徴抽出を伴わずに、実世界のマルチエージェント環境での推論と心の理論の研究を可能にすることである。
論文 参考訳(メタデータ) (2022-06-20T16:51:44Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。