論文の概要: Envision4D: Envisioning Visual Futures via Feed-forward 4D Gaussian Splatting for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2606.10656v1
- Date: Tue, 09 Jun 2026 10:04:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.434059
- Title: Envision4D: Envisioning Visual Futures via Feed-forward 4D Gaussian Splatting for Autonomous Driving
- Title(参考訳): Envision4D: 自律運転のためのフィードフォワード4Dガウススプラッティングによるビジュアルフューチャーの構想
- Authors: Qi Song, Yifei He, Chi Zhang, Zheng Fu, Xuhe Zhao, Mengmeng Yang, Kun Jiang, Rui Huang, Diange Yang,
- Abstract要約: Envision4Dは、ポーズのない将来の外挿のための、完全に自己管理されたフィードフォワードフレームワークである。
Future Pose Predictionモジュールは、イテレーティブなdenoisingプロセスを通じて、将来のカメラパラメータを推測する。
In-layer Temporal Attention and Conditioned Motion Liftingは、非常に不確実な外挿過程をロバストマッピングに変換する。
- 参考スコア(独自算出の注目度): 22.824000058639125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Forecasting the future evolution of dynamic scenes is crucial in autonomous driving. However, existing feed-forward paradigms are primarily designed for interpolation. When extended to future extrapolation, they suffer from ghosting artifacts under large displacements and are constrained by simplified motion assumptions or strict future priors. To overcome these challenges, we propose Envision4D, a fully self-supervised feed-forward framework for pose-free future extrapolation. Specifically, we introduce a Future Pose Prediction module that infers future camera parameters via an iterative denoising process. Furthermore, to capture non-linear dynamics, we propose In-layer Temporal Attention and employ Conditioned Motion Lifting, which transforms the highly uncertain extrapolation process into robust relational mappings. Finally, a Progressive Training Strategy is utilized to stabilize unsupervised motion learning against error accumulation. Extensive experiments demonstrate that Envision4D achieves state-of-the-art performance, significantly outperforming existing methods in future view synthesis.
- Abstract(参考訳): ダイナミックなシーンの将来の進化を予測することは、自動運転に不可欠である。
しかし、既存のフィードフォワードパラダイムは主に補間のために設計されている。
将来の外挿に拡張されると、それらは大きな変位の下でゴーストアーティファクトに悩まされ、単純化された動きの仮定や厳密な将来の先行によって制約される。
これらの課題を克服するために,ポーズフリーな将来の外挿のための完全自己教師型フィードフォワードフレームワークであるEnvision4Dを提案する。
具体的には,今後のカメラパラメータを反復的復調処理により推測するFuture Pose Predictionモジュールを提案する。
さらに,非線形力学を捉えるために,不確実な外挿過程をロバストなリレーショナルマッピングに変換する条件付きモーションリフティングを用いて,階層内テンポラルアテンションを提案する。
最後に、プログレッシブトレーニング戦略を用いて、教師なし動作学習をエラー蓄積に対して安定化させる。
広汎な実験により、Envision4Dは最先端のパフォーマンスを達成し、将来のビュー合成において既存の手法よりも大幅に優れていることが示された。
関連論文リスト
- IDOL: Inverse-Dynamics-Guided Future Prediction for End-to-End Autonomous Driving [6.515607168928518]
IDOLは、潜在BEV空間におけるワールドモデルに基づくエンド・ツー・エンド・プランニングのための逆力学誘導型将来の予測フレームワークである。
IDOLはまず、BEVワールドモデルを用いて複数の将来の潜伏シーン状態を予測し、次に隣接する潜伏未来に逆ダイナミクスモデルを適用する。
これらの逆力学に基づく信号は、計画された軌道を最適化するために使用され、受動シーン予測から将来の予測を実行可能な計画ガイダンスに変える。
論文 参考訳(メタデータ) (2026-05-29T16:05:42Z) - ELAN4D: Embodiment-Centric 4D Supervision for Vision-Language-Action Models via Plug-and-Play Adaptation [63.617951135459016]
VLA(Vision-Language-Action)モデルでは、ロボット操作が約束されているが、既存のほとんどのポリシーは、現在の観測からアクションを直接回帰することで、反応する。
ELAN4Dは,将来のロボットキートラックによるポリシーを予測的時間的監視として強化する,実施中心の4D対応トレーニングフレームワークである。
論文 参考訳(メタデータ) (2026-05-28T19:03:30Z) - From Imagined Futures to Executable Actions: Mixture of Latent Actions for Robot Manipulation [88.39072412680633]
将来の映像を実行可能な表現に変換する制御指向インタフェースであるMoLAを提案する。
我々は,シミュレーションベンチマークと実世界のロボット操作タスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2026-05-12T14:15:16Z) - FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model [73.03346643967309]
我々は、効果的な共同運動予測モデルには、時間的連続性と視覚的条件による監督的疎結合の両方が必要であると論じる。
FutureVLAは、視覚情報と運動情報を最初に分離することで、関節振動子埋め込みを抽出するように設計されている。
訓練後の段階において、我々は遅延埋め込みアライメント戦略を採用し、様々な下流VLAモデルによりこれらの時間的先行を内部化することができる。
論文 参考訳(メタデータ) (2026-03-11T12:39:55Z) - GeoMotion: Rethinking Motion Segmentation via Latent 4D Geometry [61.24189040578178]
そこで本研究では,注目機構を介し,潜在特徴表現から移動対象を直接推論する完全学習型アプローチを提案する。
我々の重要な洞察は、明示的な対応推定を回避し、代わりに、モデルが暗黙的にオブジェクトとカメラの動きを歪めることを学ぶことである。
提案手法は,最先端の動作セグメンテーション性能を高い効率で達成する。
論文 参考訳(メタデータ) (2026-02-25T11:36:33Z) - FutureX: Enhance End-to-End Autonomous Driving via Latent Chain-of-Thought World Model [103.2513470454204]
FutureXは、エンド・ツー・エンドのプランナを強化し、将来のシーンの遅延推論と軌道修正を通じて複雑な動作計画を実行するパイプラインである。
FutureXは、より合理的な運動計画と衝突を減らすことで、効率を損なうことなく既存の方法を強化する。
論文 参考訳(メタデータ) (2025-12-12T02:12:49Z) - TransDiffuser: Diverse Trajectory Generation with Decorrelated Multi-modal Representation for End-to-end Autonomous Driving [20.679370777762987]
エンコーダデコーダに基づく生成軌道計画モデルであるTransDiffuserを提案する。
単純なマルチモーダル表現デコレーションのデノナイジング過程におけるデコレーション最適化機構を利用する。
TransDiffuserは、クローズドループ計画指向ベンチマークNAVSIMで94.85のPDMSを達成する。
論文 参考訳(メタデータ) (2025-05-14T12:10:41Z) - EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation [55.26713167507132]
本稿では,エンボディ空間の構築と解釈を行う生成ロボティクス基礎モデルを提案する。
EnerVerseは、自己回帰的ビデオ拡散フレームワークを使用して、命令から将来のエンボディドスペースを予測する。
本稿では,生成モデルと4次元ガウススプラッティングを組み合わせたデータエンジンパイプラインであるEnerVerse-Dについて述べる。
論文 参考訳(メタデータ) (2025-01-03T17:00:33Z) - TransFusion: A Practical and Effective Transformer-based Diffusion Model
for 3D Human Motion Prediction [1.8923948104852863]
本研究では,3次元動作予測のための革新的で実用的な拡散モデルであるTransFusionを提案する。
我々のモデルは、浅い層と深い層の間の長いスキップ接続を持つバックボーンとしてTransformerを活用している。
クロスアテンションや適応層正規化のような余分なモジュールを利用する従来の拡散モデルとは対照的に、条件を含む全ての入力をトークンとして扱い、より軽量なモデルを作成する。
論文 参考訳(メタデータ) (2023-07-30T01:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。