論文の概要: Lagrange: An Open-Vocabulary, Energy-Based Sparse Framework for Generalized End-to-End Driving
- arxiv url: http://arxiv.org/abs/2606.20274v1
- Date: Thu, 18 Jun 2026 14:18:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.907664
- Title: Lagrange: An Open-Vocabulary, Energy-Based Sparse Framework for Generalized End-to-End Driving
- Title(参考訳): Lagrange: 一般化したエンドツーエンド運転のためのオープンボキャブラリとエネルギーベースのスパースフレームワーク
- Authors: Shihao Ji, HongXi Li, Zihui Song, Mingyu Li,
- Abstract要約: 複雑なオープンワールド環境へのエンド・ツー・エンドの自動運転のスケーリングには、運動学的に有効な軌道を生成する異常なシナリオやプランナーに一般化する知覚モデルが必要である。
我々は,Masked Latent Fields (MLF) に基づく,オープンな語彙と計算的にスパースな駆動フレームワークであるLagrangeを提案する。
我々は無関係な実体を時間的にフィルタリングし、出席したトークンを空間座標上で定義された暗黙の連続エネルギー場に復号する意図駆動型マスク付きクロスアテンションモジュールを導入する。
- 参考スコア(独自算出の注目度): 12.828441606176447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling end-to-end autonomous driving to complex, open-world environments requires perceptual models that generalize to anomalous scenarios and planners that produce kinematically valid trajectories. Existing paradigms face a distinct dichotomy between representational efficiency and generalization capacity. Dense models (e.g., occupancy networks), while geometrically robust, incur critical computational bottlenecks and struggle with high-level semantic reasoning. Conversely, sparse, query-based planners are efficient but reliant on closed-set definitions, rendering them vulnerable to out-of-distribution (OOD) events. Although recent Vision-Language-Action (VLA) models offer open-vocabulary reasoning, their autoregressive, discrete token generation fundamentally conflicts with the continuous, high-frequency control requirements of vehicle dynamics. To address this, we propose Lagrange, an open-vocabulary, computationally sparse driving framework based on Masked Latent Fields (MLF). Rather than relying on dense volumetric reconstructions or closed-set query mechanisms, Lagrange exploits Vision-Language Models (VLMs) to encode class-agnostic object proposals into continuous semantic visual tokens. We introduce an intent-driven masked cross-attention module that temporally filters irrelevant entities, decoding the attended tokens into an implicit continuous energy field defined over spatial coordinates. By framing decision-making as a Lagrangian action minimization problem spanning this energy field, we enforce strict compliance with vehicle kinematics while executing collision avoidance. Extensive offline evaluations on both standard (nuScenes) and long-tail (CODA) benchmarks demonstrate that Lagrange establishes a promising framework for robust, interpretable, and kinematically feasible open-world autonomy.
- Abstract(参考訳): 複雑なオープンワールド環境へのエンド・ツー・エンドの自動運転のスケーリングには、運動学的に有効な軌道を生成する異常なシナリオやプランナーに一般化する知覚モデルが必要である。
既存のパラダイムは、表現効率と一般化能力の明確な二分法に直面している。
デンスモデル(例えば、占有ネットワーク)は幾何学的に堅牢であるが、重要な計算ボトルネックを生じさせ、高レベルの意味論的推論に苦しむ。
逆に、疎結合でクエリベースのプランナは効率的だがクローズドセットの定義に依存しており、アウト・オブ・ディストリビューション(OOD)イベントに対して脆弱である。
近年のVision-Language-Action(VLA)モデルはオープン語彙推論を提供するが、その自己回帰的で離散トークン生成は、車両力学の連続かつ高周波制御要求と根本的に矛盾する。
そこで本稿では,Masked Latent Fields (MLF) に基づく,オープンな語彙と計算的に疎結合な駆動フレームワークであるLagrangeを提案する。
Lagrangeは、高密度なボリューム再構成やクローズドセットクエリメカニズムに頼るのではなく、視覚言語モデル(VLM)を利用して、クラスに依存しないオブジェクトの提案を連続的なセマンティックなビジュアルトークンにエンコードする。
我々は無関係な実体を時間的にフィルタリングし、出席したトークンを空間座標上で定義された暗黙の連続エネルギー場に復号する意図駆動型マスク付きクロスアテンションモジュールを導入する。
このエネルギー分野にまたがるラグランジアン行動最小化問題として意思決定をフレーミングすることにより、衝突回避を行いながら車両運動学への厳格なコンプライアンスを強制する。
標準(nuScenes)とLong-tail(CODA)ベンチマークの広範なオフライン評価は、Lagrangeが堅牢で解釈可能で、キネマティックに実現可能なオープンワールド自律性のための有望なフレームワークを確立していることを示している。
関連論文リスト
- OmniGF: A Dual-Branch Vision-Language Framework for Unified Gaze Following [59.53720386342017]
拡張性のある多対人視線推論に基礎的な視覚言語モデルを適用する統合視覚言語フレームワークを提案する。
すべての個人をモデル化することにより、OmniGFは正確な空間的視線目標推定、意味的視線予測、複雑な社会的視線推定をシームレスに統合する。
論文 参考訳(メタデータ) (2026-05-26T00:08:06Z) - VLADriver-RAG: Retrieval-Augmented Vision-Language-Action Models for Autonomous Driving [8.228888952282917]
歴史的知識を明示的かつ構造的に認識するフレームワークである textbfVLA-DriverRAG を提案する。
感覚入力をtextitVisual-to-Scenario 機構で意味グラフに抽象化し,視覚ノイズを効果的にフィルタリングする。
Bench2Driveベンチマークの実験は、新しい最先端技術を確立し、ドライビングスコア89.12を達成した。
論文 参考訳(メタデータ) (2026-05-01T05:50:00Z) - OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation [61.18260993245354]
Chain-of-Thought(CoT)推論は、VLAベースの自律運転において、軌道予測の強力なドライバである。
本稿では,2つの補助デコーダによって制御されるコンパクトな潜在トークンを通じて推論をルーティングする,統一VLAおよびワールドモデルフレームワークであるOneVLを提案する。
OneVLは、明示的なCoTを超える最初の遅延CoTメソッドとなり、応答のみのレイテンシで最先端の精度を提供する。
論文 参考訳(メタデータ) (2026-04-20T16:37:22Z) - OneDrive: Unified Multi-Paradigm Driving with Vision-Language-Action Models [69.2503510410147]
予め訓練されたVLM上に構築した統合自動運転フレームワークを提案する。
トレーニング済みのVLMアテンションは、純粋言語モデリング以上の強い伝達性を示すことを示す。
エンドツーエンドの自動運転ベンチマークの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-04-20T07:50:00Z) - Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges [2.76240219662896]
本稿では,自動走行のための世界モデルの最近の進歩を生かした,一貫したラテント空間フレームワークを提案する。
このフレームワークは、ラテント表現(ラテント・ワールド、ラテント・アクション、ラテント・ジェネレータ、連続状態、離散トークン、ハイブリッド)と幾何学、トポロジー、セマンティクスの構造的先行によって設計空間を整理する。
論文 参考訳(メタデータ) (2026-03-10T01:56:17Z) - Efficient and Explainable End-to-End Autonomous Driving via Masked Vision-Language-Action Diffusion [23.834662472392694]
Masked Vision-Language-Action Diffusion for Autonomous Driving (MVLAD-AD)は、効率的な計画と意味論的説明のギャップを埋める新しいフレームワークである。
本稿では,実世界の運転分布から,運動的に実現可能なウェイポイントのコンパクトなコードブックを構築するための,離散的なアクショントークン化戦略を提案する。
nuScenesおよび派生ベンチマークの実験により、MVLAD-ADはより優れた効率を実現し、計画精度において最先端の自己回帰的および拡散的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-24T05:59:10Z) - SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving [52.02379432801349]
本稿では,運転特化知識階層に関するVLMの表現学習を構築する新しいフレームワークであるSGDriveを提案する。
トレーニング済みのVLMバックボーン上に構築されたSGDriveは、人間の運転認知を反映するシーンエージェントゴール階層に、駆動理解を分解する。
論文 参考訳(メタデータ) (2026-01-09T08:55:42Z) - Multi-Robot Motion Planning from Vision and Language using Heat-Inspired Diffusion [6.286759951136632]
Language-Conditioned Heat-Inspired Diffusion (LCHD)は、言語条件の衝突のない軌道を生成するエンドツーエンドのビジョンベースのフレームワークである。
LCHDはCLIPベースのセマンティックプリエントと衝突回避拡散カーネルを統合し、物理的誘導バイアスとして機能する。
LCHDは、計画遅延を減らしながら、相変わらず拡散ベースのプランナーを成功率で上回る。
論文 参考訳(メタデータ) (2025-12-15T08:43:13Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - InVDriver: Intra-Instance Aware Vectorized Query-Based Autonomous Driving Transformer [12.441180142943328]
InVDriverは、インスタンス内空間依存のための新しいベクトル化クエリベースのシステムである。
InVDriverは最先端の性能を達成し,精度と安全性の両面で従来の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-02-25T08:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。