論文の概要: SpatialSV: Internalizing Interpretable 3D Spatial Awareness in MLLMs via Task-Oriented Visual Supervision
- arxiv url: http://arxiv.org/abs/2606.19915v1
- Date: Thu, 18 Jun 2026 08:09:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.723396
- Title: SpatialSV: Internalizing Interpretable 3D Spatial Awareness in MLLMs via Task-Oriented Visual Supervision
- Title(参考訳): SpaceSV:タスク指向ビジュアルスーパービジョンによるMLLMにおける解釈可能な3次元空間認識の内在化
- Authors: Jiayu Tang, Yuchen Zhou, Chao Gou,
- Abstract要約: 大規模言語モデル(MLLM)の空間知能は,3次元世界を理解する上で重要である。
本研究では,MLLMの内部で頑健な3次元空間認識を実現するためのフレームワークであるSpatialSVを提案する。
- 参考スコア(独自算出の注目度): 12.336413790708738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unlocking the spatial intelligence of multimodal large language model (MLLMs) is crucial for understanding and interacting with the 3D world. Prevailing approaches typically inject spatial priors via external tools, which impose significant inference overhead, or rely on latent feature distillation, which remains uninterpretable and lacks fine-grained geometric constraints. To address these issues, we propose SpatialSV, a framework designed to internalize robust 3D spatial awareness within MLLMs while simultaneously offering inherent interpretability. Deviating from passive feature imitation, SpatialSV employs task-oriented visual supervision, compelling the model to actively lift its 2D visual features into explicit 3D representations, including depth maps, camera poses, and point clouds. Crucially, this 2D-to-3D lifting process provides a transparent window into the model's representations: the resulting 3D reconstructions serve as an intuitive proxy for visualizing and diagnosing the quality of the model's intrinsic spatial knowledge. Extensive experiments across multiple models and benchmarks demonstrate the effectiveness of SpatialSV in enhancing and interpreting MLLMs' spatial intelligence. Furthermore, the framework exhibits strong generalization in semi-supervised settings, validating its potential to leverage unlabeled visual data for scalable, interpretable spatial representation learning.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)の空間的知性を解き放つことは,3次元世界を理解する上で重要である。
一般的なアプローチでは、外部ツールを通じて空間的先行を注入し、大きな推論オーバーヘッドを課すか、あるいは未熟な特徴蒸留に依存するが、それは解釈不能であり、微妙な幾何学的制約が欠如している。
これらの課題に対処するため,我々は,MLLMの内部で頑健な3次元空間認識を内部化するためのフレームワークであるSpatialSVを提案する。
受動的機能の模倣から脱却したSpatialSVは、タスク指向の視覚的監視を採用し、深度マップ、カメラポーズ、点雲を含む2次元の視覚的特徴を明示的な3D表現に積極的に持ち上げるようにモデルを説得する。
重要なことに、この2D-to-3Dリフトプロセスはモデルの表現に透過的な窓を与え、結果として得られる3D再構成は、モデル固有の空間知識の質を視覚化し診断するための直感的なプロキシとして機能する。
複数のモデルとベンチマークにわたる大規模な実験は、MLLMの空間知能の強化と解釈におけるSpatialSVの有効性を示す。
さらに、このフレームワークは半教師付き設定において強力な一般化を示し、スケーラブルで解釈可能な空間表現学習のためにラベルなしの視覚データを活用する可能性を検証する。
関連論文リスト
- Enhancing MLLM Spatial Understanding via Active 3D Scene Exploration for Multi-Perspective Reasoning [10.542346290671114]
明示的な3次元再構成を基礎としたビジュアル・チェーン・オブ・ソート・メカニズムを導入したテクスティングフリーなフレームワークを提案する。
このフレームワークは、3DSRBenchやRel3Dといった主要なベンチマークにおいて、特別な空間モデルや汎用MLLMよりも優れている。
論文 参考訳(メタデータ) (2026-04-08T06:47:55Z) - Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning [43.746951848993035]
空間知能は、明示的な空間的インストラクションチューニングによって課されるのではなく、2次元視覚のみから現れる。
本稿では,未提示のマルチビュー画像から直接,空間表現の統一化を学習する,自己教師型フレームワークであるSpa3Rを紹介する。
実験では、Spa3-VLMが3D VQAで58.6%の最先端の精度を達成し、従来の方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-02-24T18:37:34Z) - S$^2$-MLLM: Boosting Spatial Reasoning Capability of MLLMs for 3D Visual Grounding with Structural Guidance [20.55536735670125]
3Dビジュアルグラウンド(3DVG)は、自然言語記述に基づく3Dシーンにおけるオブジェクトの配置に焦点を当てている。
MLLM(Multi-modal Large Language Models)の最近の進歩は、それらを3DVGに拡張する研究の動機となっている。
S$2$-MLLMは、暗黙の空間的推論を通じてMLLMの空間的推論を強化する効率的なフレームワークである。
論文 参考訳(メタデータ) (2025-12-01T03:08:34Z) - Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - Spatial-ORMLLM: Improve Spatial Relation Understanding in the Operating Room with Multimodal Large Language Model [1.8302608976873713]
空間ORMLLMは手術室における3次元空間推論のための視覚言語モデルである。
推定アルゴリズムにより抽出された3次元空間知識の豊富な2次元モダリティ入力を組み込む。
専門家のアノテーションやセンサー入力を使わずに、堅牢な3Dシーン推論を提供する。
論文 参考訳(メタデータ) (2025-08-11T17:17:20Z) - Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - Spatio-temporal Self-Supervised Representation Learning for 3D Point
Clouds [96.9027094562957]
ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。
幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。
STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
論文 参考訳(メタデータ) (2021-09-01T04:17:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。