論文の概要: OmniSpace: Efficient Geometry Awareness for Autonomous Vehicles MLLMs
- arxiv url: http://arxiv.org/abs/2606.22617v1
- Date: Sun, 21 Jun 2026 17:47:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:18:43.786492
- Title: OmniSpace: Efficient Geometry Awareness for Autonomous Vehicles MLLMs
- Title(参考訳): OmniSpace: 自動運転車MLLMのための効率的な幾何学的認識
- Authors: Hao Vo, Phu Loc Nguyen, Khoa Vo, Sieu Tran, Duc Minh Nguyen, Ngo Xuan Cuong, Nghi D. Q. Bui, Anh Nguyen, Duy Minh Ho Nguyen, Ngan Le,
- Abstract要約: OmniSpace(オムニスペース、OmniSpace)は、幾何学的空間推論のためのプラグアンドプレイパラダイムであり、純粋に2次元の観測から得られる。
実験によると、OmniSpaceはベンチマーク計画の既存の手法を超越している。
- 参考スコア(独自算出の注目度): 17.019935117460975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved remarkable performance on 2D visual tasks, yet enhancing their spatial intelligence for real-world applications such as Autonomous Vehicles (AV) remains an open challenge. Existing geometry-aware MLLMs typically rely on auxiliary 3D models at inference time, introducing pipeline complexity and the risk of cascading failures. In this paper, we present OmniSpace, a simple yet effective plug-and-play paradigm for geometry-aware spatial reasoning from purely 2D observations. Motivated by our finding that current MLLMs are bottlenecked by weak cross-view correspondence and depth estimation, OmniSpace introduces a Camera Pose Injector, a Multi-view Epipolar Attention module, and a 3D Geometric Distillation objective that jointly address these two limitations by transferring geometric knowledge into the model. Extensive experiments show that OmniSpace surpasses existing methods on planning benchmarks (nuScenes, Bench2Drive), risk detection (nuInstruct), language (Omnidrive), and generalization (DriveBench).
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、2次元視覚タスクにおいて顕著なパフォーマンスを達成しているが、自律走行車(AV)のような現実世界のアプリケーションのための空間知性の向上は依然としてオープンな課題である。
既存の幾何学的MLLMは、通常、推論時に補助的な3Dモデルに依存し、パイプラインの複雑さとカスケード障害のリスクを導入する。
本稿では,幾何学的空間推論を純粋に2次元の観測から行うための,シンプルで効果的なプラグアンドプレイ・パラダイムであるOmniSpaceを提案する。
OmniSpaceではカメラポスインジェクタ,マルチビューエピポーラアテンションモジュール,および幾何学的知識をモデルに伝達することで,これらの2つの制約に共同で対処する3次元幾何蒸留を導入された。
大規模な実験の結果、OmniSpaceはベンチマーク(nuScenes、Bench2Drive)、リスク検出(nuInstruct)、言語(Omnidrive)、一般化(DriveBench)の既存の方法を上回ることがわかった。
関連論文リスト
- SpatialSV: Internalizing Interpretable 3D Spatial Awareness in MLLMs via Task-Oriented Visual Supervision [12.336413790708738]
大規模言語モデル(MLLM)の空間知能は,3次元世界を理解する上で重要である。
本研究では,MLLMの内部で頑健な3次元空間認識を実現するためのフレームワークであるSpatialSVを提案する。
論文 参考訳(メタデータ) (2026-06-18T08:09:32Z) - Learning Geometric Representations from Videos for Spatial Intelligent Multimodal Large Language Models [32.477423778941386]
純粋に2次元ビデオシーケンスを用いて幾何学的表現を学習するフレームワークであるGeoVRを提案する。
表面的特徴混合を採用するのではなく、GeoVRは幾何学的知識を蒸留することによってMLLMの内部表現に不満を抱く。
空間推論ベンチマークの実験は、GeoVRが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-06-04T08:11:12Z) - Enhancing MLLM Spatial Understanding via Active 3D Scene Exploration for Multi-Perspective Reasoning [10.542346290671114]
明示的な3次元再構成を基礎としたビジュアル・チェーン・オブ・ソート・メカニズムを導入したテクスティングフリーなフレームワークを提案する。
このフレームワークは、3DSRBenchやRel3Dといった主要なベンチマークにおいて、特別な空間モデルや汎用MLLMよりも優れている。
論文 参考訳(メタデータ) (2026-04-08T06:47:55Z) - Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding [50.098085774845195]
本稿では,大規模生成モデルにおいて暗黙の空間的先行性を活用することで,パラダイムシフトを提案する。
GeneEGA-3D (Video Extracted Generative Awareness) は,事前学習した映像拡散モデルを潜在世界シミュレータとして再利用するプラグイン・アンド・プレイ・フレームワークである。
論文 参考訳(メタデータ) (2026-03-19T17:59:58Z) - Spatial-ORMLLM: Improve Spatial Relation Understanding in the Operating Room with Multimodal Large Language Model [1.8302608976873713]
空間ORMLLMは手術室における3次元空間推論のための視覚言語モデルである。
推定アルゴリズムにより抽出された3次元空間知識の豊富な2次元モダリティ入力を組み込む。
専門家のアノテーションやセンサー入力を使わずに、堅牢な3Dシーン推論を提供する。
論文 参考訳(メタデータ) (2025-08-11T17:17:20Z) - Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。