論文の概要: VLGA: Vision-Language-Geometry-Action Models for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2606.12396v1
- Date: Wed, 10 Jun 2026 17:57:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.611921
- Title: VLGA: Vision-Language-Geometry-Action Models for Autonomous Driving
- Title(参考訳): VLGA:自律運転のための視覚・言語・幾何学・行動モデル
- Authors: Jin Yao, Dhruva Dixith Kurra, Tom Lampo, Zezhou Cheng, Danhua Guo, Burhan Yaman,
- Abstract要約: ヴィジュアル・ランゲージ・アクション・モデルは、それらのシーンを言語で表現できるが、周囲の密集した3Dの世界において、彼らのアクションを根ざすのに苦労する。
VLGAは、運転する高密度な3D世界を再構築するために教師される最初の視覚-言語-アクションモデルである。
- 参考スコア(独自算出の注目度): 6.130994037021129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language-action (VLA) models can describe scenes and reason about them in language, yet still struggle to ground their actions in the dense 3D world around them. Existing approaches either inject features from a frozen 3D foundation model without an objective that ensures the policy uses them, or constrain geometry with sparse box and map losses that provide no dense spatial signal. We introduce VLGA, the first vision-language-action model supervised to reconstruct the dense 3D world it drives through. VLGA introduces geometry as a fourth modality alongside vision, language, and action through a dedicated expert supervised by a per-pixel pointmap regression loss against LiDAR. Extensive experiments conducted on challenging nuScenes and Bench2Drive datasets for open-loop and closed-loop evaluations, respectively, show the superiority of VLGA over counterpart VLA methods. In particular, on open-loop nuScenes, VLGA sets a new state of the art among VLA methods without ego status, with the lowest L2 (0.50\,m average) and 3-second collision rate (0.18\%). On closed-loop Bench2Drive, VLGA attains the state-of-the-art driving score of 79.08, +0.71 over the strongest prior VLA, at comparable efficiency and comfort.
- Abstract(参考訳): ヴィジュアル・ランゲージ・アクション(VLA)モデルは、これらのシーンを言語で表現することができるが、それでも周囲の密集した3Dの世界において、彼らのアクションを根ざすのに苦労している。
既存のアプローチは、ポリシーがそれらを確実に使用する目的のない凍結した3D基礎モデルから特徴を注入するか、あるいは密集した空間信号を提供しないスパースボックスとマップロスで幾何学を制約するかのどちらかである。
VLGAは、運転する高密度な3D世界を再構築するために教師される最初の視覚-言語-アクションモデルである。
VLGAは、視力、言語、行動と共に幾何学を4番目のモダリティとして導入する。
オープンループとクローズドループ評価のための挑戦的なnuSceneとBench2Driveデータセットで実施された大規模な実験は、競合するVLA法よりもVLGAの方が優れていることを示している。
特に、オープンループのnuScenesでは、VLGAは、エゴ状態のないVLAメソッドの中で、最低L2(0.50\,m平均)と3秒の衝突率(0.18\%)で新しい最先端の状態を設定している。
クローズドループのBench2Driveでは、VLGAは最強のVLAよりも79.08, +0.71の最先端の駆動スコアを同等の効率と快適さで達成している。
関連論文リスト
- GEAR-VLA: Learning Geometry-Aware Action Representations for Generalizable Robotic Manipulation [49.16739604572808]
VLA(Vision-Language-Action)モデルは、強力なベンチマークパフォーマンスを実現するが、目に見えないオブジェクトによる現実世界のデプロイに苦労する。
これは、統合幾何認識の操作表現が欠如していることに起因していると我々は主張する。
一般化可能なロボット操作のための統合幾何認識行動表現を学習するためのVLAフレームワークであるGEAR-VLAを提案する。
論文 参考訳(メタデータ) (2026-06-07T09:23:16Z) - PointACT: Vision-Language-Action Models with Multi-Scale Point-Action Interaction [57.63073414949329]
我々は,階層的な3Dポイントクラウド表現をアクションデコーディングプロセスに直接統合する,デュアルシステム3D対応VLAポリシーであるPointACTを提案する。
PointACTは、効率的なボトルネックウィンドウ自己アテンションを備えたマルチスケールのポイントアクションインタラクション機構を採用し、進化するアクショントークンが局所的な幾何学的詳細とグローバルなシーン構造の両方に密に関与できるようにする。
論文 参考訳(メタデータ) (2026-05-20T17:10:31Z) - VEGA: Visual Encoder Grounding Alignment for Spatially-Aware Vision-Language-Action Models [55.12929235609365]
現在の視覚言語アクション(VLA)モデルの視覚バックボーンは、主に3次元幾何学的監督を伴わない2次元画像データに事前訓練されている。
既存の暗黙の接地法は、VLA特徴を3D認識基盤モデルと整合させることによって、この問題に部分的に対処する。
DINOv2-FiT3D の空間認識機能と VLA の視覚エンコーダの出力を直接一致させるフレームワーク VEGA を提案する。
論文 参考訳(メタデータ) (2026-05-11T12:44:26Z) - StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving [8.903468887918754]
StyleVLAは物理インフォームされたVLAフレームワークで、多種多様な物理的に妥当な運転行動を生成する。
我々は,1.2k以上のシナリオ,76k Bird's Eye View (BEV) サンプル,42k First Person View (FPV) サンプルを用いた大規模インストラクションデータセットを構築した。
実験の結果、StyleVLAはプロプライエタリなモデルや最先端のVLAモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-03-10T10:33:58Z) - IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance [35.90972175891154]
多くのVision-Language-Action (VLA)モデルは、画像パッチを1Dトークンシーケンスに平坦化し、正確な操作に必要な2D空間キューを弱める。
我々は,モデルに組み込まれた視覚で既に利用可能な親和性ヒントを活用することにより,空間的理解を改善する軽量なトレーニング不要な手法を提案する。
論文 参考訳(メタデータ) (2026-01-22T18:57:13Z) - DrivePI: Spatial-aware 4D MLLM for Unified Autonomous Driving Understanding, Perception, Prediction and Planning [94.62097655403683]
本稿では,ビジョン・ランゲージ・アクション統合フレームワークとして機能する空間認識型4次元MLLMであるDrivePIを提案する。
提案手法は,空間的理解,3次元知覚,予測(占有フロー),計画(行動出力)を並列に行う。
MLLMのバックボーンとして0.5BのQwen2.5モデルしか持たず、単一の統一モデルとしてのDrivePIは既存のVLAモデルと特殊VAモデルの両方を上回るか、あるいは超える。
論文 参考訳(メタデータ) (2025-12-14T18:45:54Z) - LEO-VL: Efficient Scene Representation for Scalable 3D Vision-Language Learning [63.19329995235114]
主なボトルネックは、現在のシーン表現がパフォーマンスと効率のバランスをとるのに苦労していることです。
本稿では,トークンのオーバーヘッドを大幅に低減し,認識能力の強い,効率的なシーン表現であるコンデンス機能グリッド(CFG)を提案する。
実世界の4つの屋内ドメインと、キャプションや対話といった5つのタスクにまたがる700k3D-VLデータに基づいて訓練された3D VLMであるLEO-VLを紹介する。
論文 参考訳(メタデータ) (2025-06-11T16:56:34Z) - PointVLA: Injecting the 3D World into Vision-Language-Action Models [10.758939578236582]
我々は,ポイントクラウド入力を必要とせずに,事前学習された視覚言語行動モデルを強化するフレームワークであるPointVLAを提案する。
本手法は,バニラ動作の専門家を凍結し,軽量なモジュールブロックを介して3次元特徴を注入する。
PointVLAは、シミュレーションと現実世界の両方のロボットタスクにおいて、最先端の2D模倣学習方法より優れています。
論文 参考訳(メタデータ) (2025-03-10T16:32:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。