論文の概要: SATURN: Symbolic Spatial Reasoning for Multi-Perspective Grounding
- arxiv url: http://arxiv.org/abs/2606.22694v1
- Date: Sun, 21 Jun 2026 22:15:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 07:28:41.946563
- Title: SATURN: Symbolic Spatial Reasoning for Multi-Perspective Grounding
- Title(参考訳): SATURN:マルチパースペクティブグラウンドのためのシンボリック空間推論
- Authors: Danial Kamali, Tanawan Premsri, Shreya Rajpal, Amir Zadeh, Chuan Li, Parisa Kordjamshidi,
- Abstract要約: 本稿では,視点認識型合成空間推論のためのニューロシンボリック・フレームワークであるSATURNを提案する。
SATURNは、近似した3Dシーンを再構築し、ソフトな視点認識空間述語を導き、トレーニング不要のPythonのシンボルエグゼキュータで構成する。
実際のMindCubeベンチマークでは、SATURNは78.57%の精度を達成し、最強のベースラインを14ppで上回った。
- 参考スコア(独自算出の注目度): 24.60984483500893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) remain unreliable when spatial reasoning requires composing relations whose meanings depend on frames of reference. Existing neuro-symbolic methods make reasoning more explicit, but often depend on brittle geometric procedures and hard decisions over noisy perception. We propose SATURN, a neuro-symbolic framework for perspective-aware compositional spatial reasoning. SATURN reconstructs an approximate 3D scene, derives soft perspective-aware spatial predicates, and composes them with a training-free Pythonic symbolic executor, separating perception from reasoning while preserving uncertainty through multi-hop inference. We also introduce 3D FORCE, a diagnostic benchmark that controls reasoning depth, view, and perspective composition across spatial arrangement grounding (SAG) and referring expression grounding (REF). On 3D FORCE, VLMs and spatially trained models degrade sharply as depth and perspective complexity increase, whereas SATURN remains stable and outperforms strong baselines. On the real-world MindCube benchmark, SATURN achieves 78.57% overall accuracy, outperforming the strongest baseline by 14 pp.
- Abstract(参考訳): VLM(Vision-Language Models)は、空間的推論が参照のフレームに依存する関係を構成する必要がある場合、信頼できないままである。
既存のニューロシンボリックな方法により推論はより明確になるが、しばしば難解な幾何学的手順とノイズ知覚に関する難しい決定に依存する。
本稿では,視点認識型合成空間推論のためのニューロシンボリック・フレームワークであるSATURNを提案する。
SATURNは、近似した3Dシーンを再構築し、ソフトな視点認識空間述語を導出し、トレーニング不要なPythonのシンボルエグゼキュータで構成し、推論から認識を分離し、マルチホップ推論による不確実性を保っている。
また,空間配置接地(SAG)と参照表現接地(REF)をまたいだ推論深度,ビュー,視点組成を制御する診断ベンチマークである3D FORCEを導入する。
3D FORCEでは、深度と視野の複雑さが増大するにつれて、VLMと空間訓練されたモデルは急激に低下するが、SATURNは安定し、強いベースラインを上回っている。
実際のMindCubeベンチマークでは、SATURNは78.57%の精度を達成し、最強のベースラインを14ppで上回った。
関連論文リスト
- SpatialAct: Probing Spatial Reasoning-to-Action Capabilities of VLM Agents in 3D Scenes [15.076506371158876]
人間は、空間的レイアウトを熱心に知覚し、認知的表現を形成し、そのような推論を日々の3D環境における行動に変換することができる。
近年の視覚言語モデル(VLM)は、観測条件付き空間知覚と推論タスクにおいて有望な性能を示した。
我々は,3次元シーンにおけるテクスタイディション条件付き空間推論を探索するシミュレータ・グラウンド・ベンチマークであるtextbfSpatialAct を紹介する。
論文 参考訳(メタデータ) (2026-05-29T10:59:26Z) - SpatialImaginer: Towards Adaptive Visual Imagination for Spatial Reasoning [67.67774742200626]
空間知能は、視覚的な観察から幾何学的および物理的構造を推論する能力を指すもので、大きな言語モデルにとって重要な課題である。
テキスト推論と視覚的想像力を組み合わせた統合型マルチモーダル生成フレームワークを提案する。
本フレームワークでは,高レベルなセマンティックプランニングのためのテキストチェーンと,幾何感応的な状態変換と整合性保存のための視覚的想像力を用いて,分割・対数戦略を採用している。
論文 参考訳(メタデータ) (2026-04-19T11:21:59Z) - SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments [75.60795462502949]
SpaceEvoは3D空間推論のための自己進化型フレームワークである。
16の空間推論タスクカテゴリを明示的な幾何学的検証規則で定式化する。
注釈のない3Dシーンをゼロノイズのインタラクティブなオラクルに変換し、モデルコンセンサスを客観的な物理的フィードバックに置き換える。
論文 参考訳(メタデータ) (2026-04-15T17:59:12Z) - SpatialFly: Geometry-Guided Representation Alignment for UAV Vision-and-Language Navigation in Urban Environments [49.966170814478915]
UAV VLNのための幾何学誘導空間表現フレームワークを提案する。
明示的な3次元再構成を伴わないRGB観測において、SpatialFlyは幾何学誘導2次元表示アライメント機構を導入する。
実験結果から、SpatialFlyは現状のUAV VLNベースラインを目に見える環境と見えない環境の両方で一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2026-03-22T03:56:58Z) - 3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models [16.924616915709123]
視覚言語モデルは、2次元の観察からコヒーレントな3次元の心的表現を構築することができない。
オーソグラフィビューにおける空間推論の基盤となるフレームワークである textbf3ViewSense を紹介する。
空間的推論ベンチマークによる実験結果から,提案手法が既存のベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2026-03-08T17:57:56Z) - RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。
これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。
空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T12:35:57Z) - SpatialDreamer: Incentivizing Spatial Reasoning via Active Mental Imagery [64.67498968405327]
SpaceDreamerは、活発な探索のクローズループプロセスを通じて空間推論を可能にする強化学習フレームワークである。
GeoPOは、整合性幾何制約を伴う木構造サンプリングとステップレベルの報酬推定を導入している。
論文 参考訳(メタデータ) (2025-12-08T17:20:50Z) - REM: Evaluating LLM Embodied Spatial Reasoning through Multi-Frame Trajectories [19.741468026765062]
本稿では,空間推論のための制御可能な3次元環境を用いたベンチマークREM(Reasoning over Embodied Multi-Frame Trajectories)を紹介する。
REMは、オブジェクトの永続性/識別、空間的関係、動的エンボディされた視点における数値的追跡などの重要な側面を体系的に評価する。
評価の結果、最高の性能を示す現在のモデルでは、全体的な性能が期待できるが、人間によって容易に扱える程度の複雑性レベルでは信頼性が低下していることがわかった。
論文 参考訳(メタデータ) (2025-11-30T05:20:22Z) - Video Spatial Reasoning with Object-Centric 3D Rollout [58.12446467377404]
我々は,ロバストなビデオ空間推論を実現するために,OCR(Object-Centric 3D Rollout)を提案する。
OCRは、トレーニング中に選択した物体の3次元形状に構造的摂動を導入する。
OCRはモデルを補完し、全体にわたって論理的にソートする。
論文 参考訳(メタデータ) (2025-11-17T09:53:41Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。