論文の概要: FrozenDrive: Zero-Shot Text-Guided Driving Scene Generation and Data Augmentation with Parameter-Free Frozen Diffusion Model
- arxiv url: http://arxiv.org/abs/2606.20110v1
- Date: Thu, 18 Jun 2026 11:34:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.824284
- Title: FrozenDrive: Zero-Shot Text-Guided Driving Scene Generation and Data Augmentation with Parameter-Free Frozen Diffusion Model
- Title(参考訳): FrozenDrive:ゼロショットテキストガイド駆動シーンの生成とパラメータフリー凍結拡散モデルによるデータ拡張
- Authors: Yuhwan Jeong, Hyeonseong Kim, Daehyun We, Seonkyu Song, Jinnyeong Yang, Hyun-Kurl Jang, Youngho Yoon, Kuk-Jin Yoon,
- Abstract要約: FrozenDriveは、強い一貫性を達成しつつ、事前訓練された拡散モデルの知識を保存する制御可能な生成フレームワークである。
我々のモデルは、特に悪条件および稀な条件下で、テキストからグローバルにコヒーレントなマルチビュー駆動シーンを合成する。
nuScenesでは、FrozenDriveの拡張機能データにより、特に夜間や雨時のADモデルのパフォーマンスが大幅に向上し、シナリオ目標のデータでトレーニングした時に強い堅牢性を示す。
- 参考スコア(独自算出の注目度): 46.806290902697896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data for autonomous driving is surging, powered by diffusion models that promise scalable scene generation. Yet key obstacles remain, as enforcing multi-view and temporal consistency often relies on backbone fine-tuning or added layers, which erodes pre-trained knowledge and weakens text alignment. Models also stay close to the training distribution, struggling under adverse weather and unseen configurations, and fidelity favors frequent over rare classes. We address these gaps with FrozenDrive, a controllable generative framework that preserves a pretrained diffusion models knowledge while achieving strong consistency. FrozenDrive conditions on rich driving-stack signals and text prompts, and introduces knowledge-preserving spatio-temporal attention to impose cross-view alignment and temporal coherence in a single pass within a parameter-free frozen diffusion backbone. An additional object-focused constraint improves per-object fidelity for rare categories. Without any weather- or scene-specific fine-tuning, our model synthesizes globally coherent multi-view driving scenes from text, particularly under adverse and rare conditions, and surpasses prior baselines. On nuScenes, FrozenDrive augmented data significantly improves AD models performance, especially at night and in rain, demonstrating stronger robustness when trained with our scenario-targeted data.
- Abstract(参考訳): 自動運転のための合成データは急増しており、スケーラブルなシーン生成を約束する拡散モデルを利用している。
しかし、マルチビューと時間的一貫性の強制は、しばしばバックボーンの微調整や追加層に依存し、事前訓練された知識を侵食し、テキストアライメントを弱める。
モデルはトレーニング分布に近づき、悪天候や目に見えない構成に苦しむ。
このようなギャップをFrozenDriveによって解決する。FrozenDriveは、事前訓練された拡散モデルの知識を保持しつつ、一貫性を保ちながら、制御可能な生成フレームワークである。
リッチな運転スタック信号とテキストプロンプトに対するフリーズドライブ条件を導入し、パラメータフリー凍結拡散バックボーン内の単一パスにクロスビューアライメントと時間的コヒーレンスを課す知識保存時空間的注意を導入する。
オブジェクト中心の制約を追加することで、まれなカテゴリに対するオブジェクトごとの忠実度が向上する。
天気やシーン固有の微調整がなければ、本モデルはテキストから、特に悪条件や稀な条件下で、世界規模でコヒーレントなマルチビュー駆動シーンを合成し、以前のベースラインを超越する。
nuScenesでは、FrozenDriveの拡張機能データにより、特に夜間や雨時のADモデルのパフォーマンスが大幅に向上し、シナリオ目標のデータでトレーニングした時に強い堅牢性を示す。
関連論文リスト
- ClimaOoD: Improving Anomaly Segmentation via Physically Realistic Synthetic Data [16.145130650604344]
我々は,意味的コヒーレント,気象多様性,物理的に妥当なOoD駆動データを合成するためのセマンティックス誘導イメージ・ツー・イメージ・フレームワークを提案する。
この枠組みに基づいて,晴天条件と悪天候条件の両方で6つの代表的な運転シナリオにまたがる大規模ベンチマークであるClimaOoDを構築した。
論文 参考訳(メタデータ) (2025-12-02T12:14:19Z) - Zero-Shot Video Deraining with Video Diffusion Models [11.578999728002065]
本稿では,合成データやモデル微調整を必要としない複雑な動的シーンに対して,最初のゼロショットビデオデラミニング手法を提案する。
我々のアプローチは、実世界の降雨データセットに関する広範な実験を通じて検証される。
論文 参考訳(メタデータ) (2025-11-23T17:06:22Z) - Semi-Supervised State-Space Model with Dynamic Stacking Filter for Real-World Video Deraining [73.5575992346396]
本稿では,ビデオシーケンスにおけるストリーク除去を改善するために,2分岐時間状態空間モデルを提案する。
マルチフレーム機能融合を改善するために,画素ワイド機能改善のための統計的フィルタを適応的に近似する動的フィルタ積層法を提案する。
降雨環境における他の視覚に基づくタスクを支援する上でのデラミニングモデルの能力をさらに探求するため,我々は新しい実世界ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-05-22T15:50:00Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - HiLoTs: High-Low Temporal Sensitive Representation Learning for Semi-Supervised LiDAR Segmentation in Autonomous Driving [9.941013804343477]
連続LiDARフレームから高時間感度および低時間感度表現を学習するHiLoTを提案する。
その結果,提案したHiLoTsは最先端の半教師付き手法よりも優れていた。
論文 参考訳(メタデータ) (2025-03-22T12:29:15Z) - Adverse Weather Conditions Augmentation of LiDAR Scenes with Latent Diffusion Models [0.0]
本稿では,オートエンコーダと潜時拡散モデルにより構成される潜時拡散過程を提案する。
我々は,環境条件のクリアなシーンを後処理のステップで活用し,発生した悪天候のシーンの現実性を改善する。
論文 参考訳(メタデータ) (2025-01-03T11:26:29Z) - Learning Robust Precipitation Forecaster by Temporal Frame Interpolation [65.5045412005064]
本研究では,空間的不一致に対するレジリエンスを示す頑健な降水予測モデルを構築した。
提案手法は,textit4cast'23コンペティションの移行学習リーダーボードにおいて,textit1位を確保したモデルにおいて,予測精度が大幅に向上した。
論文 参考訳(メタデータ) (2023-11-30T08:22:08Z) - Instructed Diffuser with Temporal Condition Guidance for Offline
Reinforcement Learning [71.24316734338501]
テンポラリ・コンポラブル・ディフューザ(TCD)を用いた実効時間条件拡散モデルを提案する。
TCDは、相互作用シーケンスから時間情報を抽出し、時間条件で生成を明示的にガイドする。
提案手法は,従来のSOTAベースラインと比較して最高の性能を達成または一致させる。
論文 参考訳(メタデータ) (2023-06-08T02:12:26Z) - Semi-Supervised Video Deraining with Dynamic Rain Generator [59.71640025072209]
本稿では,降雨層に適合する動的降雨発生器を用いた半教師付きビデオデレーシング手法を提案する。
具体的には、1つのエミッションモデルと1つのトランジションモデルから成り、空間的物理的構造と時系列の雨の連続的な変化を同時にエンコードする。
ラベル付き合成およびラベルなしの実データのために、それらの基礎となる共通知識を十分に活用するために、様々な先行フォーマットが設計されている。
論文 参考訳(メタデータ) (2021-03-14T14:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。