論文の概要: CausalDrive: Real-time Causal World Models for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2606.15341v1
- Date: Sat, 13 Jun 2026 15:04:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:33.372622
- Title: CausalDrive: Real-time Causal World Models for Autonomous Driving
- Title(参考訳): CausalDrive: 自動運転車のリアルタイム因果世界モデル
- Authors: Tianyi Yan, Huan Zheng, Dubing Chen, Meizhi Qu, Yingying Shen, Lijun Zhou, Mingfei Tu, Bing Wang, Guang Chen, Hangjun Ye, Haiyang Sun, Cheng-zhong Xu, Jianbing Shen,
- Abstract要約: 制御可能でリアルタイムなファンデーション駆動の世界であるCausalDriveを紹介します。
CaulDriveは、最初のフロントビューフレーム、エゴ車両の軌道、マクロテキストプロンプトのみで動作する。
本稿では,(1)衝突アーティファクトを著しく緩和した生成的クローズループ評価,(2)ビデオ2Rewardモジュールによる大規模強化学習(RL)後トレーニング,(3)リアルタイムの人間-イン-ザ・ループシミュレーション,の3つのダウンストリームアプリケーションにおける汎用性を実証する。
- 参考スコア(独自算出の注目度): 60.66609721457312
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: World models have emerged as a promising paradigm for scaling autonomous driving (AD) data, yet existing video generative models fall short as interactive simulators. Layout-conditioned renderers rely on "oracle" future trajectories of all background agents, rendering them strictly non-reactive. Conversely, pure action-conditioned predictors lack semantic control over complex interactions and suffer from prohibitive diffusion latencies, hindering closed-loop policy learning. To bridge this gap, we present CausalDrive, a controllable, real-time foundation driving world renderer. CausalDrive operates solely on the initial front-view frame, the ego-vehicle's trajectory, and a macroscopic text prompt. By excluding future NPC layouts, we compel the model to intrinsically predict causal interactions, enabling text-driven control over Driving Sociology, allowing users to dynamically orchestrate diverse counterfactual reactions to identical ego-actions. To overcome the efficiency bottleneck and address the covariate shift in autoregressive generation, we propose a novel Context-Forced DMD architecture. This combines continuous flow-matching with a self-correcting distillation objective, achieving interactive speeds of 12 FPS. This breakthrough transforms the passive video generator into a playable neural simulator. We demonstrate its versatility across three downstream applications: (1) generative closed-loop evaluation with significantly mitigated collision artifacts, (2) large-scale Reinforcement Learning (RL) post-training driven by a Video2Reward module, and (3) real-time human-in-the-loop simulation. Extensive experiments validate that policies trained within CausalDrive's reactive scenarios exhibit superior interaction capabilities in the real world.
- Abstract(参考訳): 世界モデルは、自律運転(AD)データをスケールするための有望なパラダイムとして登場したが、既存のビデオ生成モデルは、インタラクティブなシミュレータとして不足している。
レイアウト条件付きレンダラーは、すべてのバックグラウンドエージェントの"オークル"将来の軌跡に依存しており、厳密に非反応性である。
逆に、純粋な行動条件付き予測器は複雑な相互作用のセマンティックコントロールを欠き、禁止的な拡散遅延に悩まされ、クローズドループポリシー学習を妨げる。
このギャップを埋めるために、制御可能でリアルタイムなファンデーション駆動ワールドレンダラーであるCausalDriveを紹介します。
CausalDriveは、最初のフロントビューフレーム、エゴ車両の軌道、マクロテキストプロンプトのみで動作する。
将来のNPCレイアウトを除外することで、本モデルでは因果関係を本質的に予測し、運転社会学のテキスト駆動制御を可能にし、ユーザーは同一のエゴアクションに対する多様な反事実反応を動的にオーケストレーションすることができる。
効率のボトルネックを克服し、自己回帰生成における共変量シフトに対処するために、新しいContext-Forced DMDアーキテクチャを提案する。
これは、連続的なフローマッチングと自己補正蒸留の目的を組み合わせることで、12FPSの対話的な速度を達成する。
このブレークスルーは、受動ビデオジェネレータを再生可能なニューラルシミュレータに変換する。
本稿では,(1)衝突アーティファクトを著しく緩和した生成的クローズループ評価,(2)ビデオ2Rewardモジュールによる大規模強化学習(RL)後トレーニング,(3)リアルタイムの人間-イン-ザ・ループシミュレーション,の3つのダウンストリームアプリケーションにおける汎用性を実証する。
大規模な実験では、CausalDriveのリアクティブシナリオ内でトレーニングされたポリシーが、現実世界で優れたインタラクション能力を示すことが検証されている。
関連論文リスト
- MAPLE: Latent Multi-Agent Play for End-to-End Autonomous Driving [62.43744546817599]
視覚言語-アクション(VLA)モデルは、エンドツーエンドのモーションプランナーとして有効であるが、クローズドループ設定で評価すると不安定である。
本稿では, VLAモデルの潜在空間における動的駆動シナリオの, リアクティブでマルチエージェントなロールアウトのための新しいフレームワークMAPLEを提案する。
MAPLEはBench2Driveで最先端の駆動性能を実現し、堅牢なE2E自動運転システムのためのスケーラブルでクローズループなマルチエージェントプレイを実演する。
論文 参考訳(メタデータ) (2026-05-13T23:35:14Z) - MR-LDM -- The Merge-Reactive Longitudinal Decision Model: Game Theoretic Human Decision Modeling for Interactive Sim Agents [0.9883562565157391]
我々は,戦術的意思決定のためのゲーム理論モデルをターゲットにして,ハイウェイマージシナリオのシミュレーションを改善することを目的としている。
これを基礎となるダイナミックスモデルと組み合わせて、より現実的なインタラクションをキャプチャできる統一された決定と動的モデルを持ちます。
論文 参考訳(メタデータ) (2025-07-15T20:41:00Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - Bench2Drive-R: Turning Real World Data into Reactive Closed-Loop Autonomous Driving Benchmark by Generative Model [63.336123527432136]
我々は,リアクティブ閉ループ評価を可能にする生成フレームワークであるBench2Drive-Rを紹介する。
既存の自動運転用ビデオ生成モデルとは異なり、提案された設計はインタラクティブなシミュレーションに適したものである。
我々は、Bench2Drive-Rの生成品質を既存の生成モデルと比較し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-12-11T06:35:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。