論文の概要: CVSBench: A Comprehensive Benchmark for Cross-view Spatial Reasoning and Dreaming
- arxiv url: http://arxiv.org/abs/2606.22476v1
- Date: Sun, 21 Jun 2026 12:35:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 18:05:38.27687
- Title: CVSBench: A Comprehensive Benchmark for Cross-view Spatial Reasoning and Dreaming
- Title(参考訳): CVSBench: クロスビューな空間推論とドリームのための総合ベンチマーク
- Authors: Ruixun Liu, Lingyu Zhang, Lanxuan Xue, Kaiyu Li, Bowen Fu, Xiangyong Cao,
- Abstract要約: CVSBenchは、衛星とストリートのペアによる空間的推論を評価するための大規模なベンチマークである。
このベンチマークは、クロスビューVQA、クロスビューグラウンド、視点識別など、複数のタスクをサポートする。
言語のみの推論は,視覚空間の想像力を3次元シーンの想像パイプラインに組み込むことで,視線間の推論を大幅に改善する一方で,限界的な改善をもたらすことを示した。
- 参考スコア(独自算出の注目度): 13.534076118011603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can effortlessly reason about scenes across different viewpoints, yet it remains unclear whether Vision-Language Models (VLMs) possess similar cross-view spatial abilities. Satellite-street scene pairs, with their complex contexts and extreme viewpoint variations, provide an ideal testbed. Motivated by this, we introduce CVSBench, a large-scale benchmark for evaluating cross-view spatial reasoning through satellite-street pairs. This benchmark supports multiple tasks, including cross-view VQA, cross-view grounding, and viewpoint identification. CVSBench comprises 3,297 cross-view image groups with 9,468 object-level annotations and 40,679 question-answer (QA) pairs, enabling systematic and controlled evaluation of cross-view spatial reasoning. Extensive evaluations reveal that advanced VLMs struggle to maintain object-level and layout consistency under drastic viewpoint changes. To bridge this gap towards human-like spatial cognition, we investigate two categories of approaches: spatially grounded reasoning and the incorporation of cognitive map inputs. Our findings demonstrate that language-only reasoning yields marginal improvements, while incorporating visual spatial imagination via a 3D scene imagination pipeline substantially improves cross-view reasoning. These results highlight the necessity of explicit visual-spatial representations for robust spatial cognition in VLMs. Our data and code are released at https://huggingface.co/datasets/zlyzlyzly/CVSBench.
- Abstract(参考訳): 人間は、異なる視点のシーンについて熱心に推論することができるが、視覚言語モデル(VLM)が同様の視野空間能力を持っているかどうかは不明だ。
衛星とストリートのシーンペアは、複雑なコンテキストと極端な視点のバリエーションを持ち、理想的なテストベッドを提供する。
そこで我々は,衛星とストリートのペアによる空間的推論を評価するための大規模ベンチマークであるCVSBenchを紹介した。
このベンチマークは、クロスビューVQA、クロスビューグラウンド、視点識別など、複数のタスクをサポートする。
CVSBenchは、3,297のクロスビュー画像群と9,468のオブジェクトレベルアノテーションと40,679のQAペアで構成され、クロスビュー空間推論の体系的および制御された評価を可能にする。
広範囲な評価により、高度なVLMは、劇的な視点の変化の下でオブジェクトレベルとレイアウトの整合性を維持するのに苦労していることが明らかとなった。
このギャップを人間のような空間認知へ橋渡しするために,空間的根拠に基づく推論と認知地図入力の導入の2つのカテゴリについて検討する。
言語のみの推論は,視覚空間の想像力を3次元シーンの想像パイプラインに組み込むことで,視線間の推論を大幅に改善する一方で,限界的な改善をもたらすことを示した。
これらの結果は,VLMにおける空間認知のための視覚空間表現の必要性を浮き彫りにした。
私たちのデータとコードはhttps://huggingface.co/datasets/zlyzlyzly/CVSBench.orgで公開されています。
関連論文リスト
- Zero-Shot 3D Question Answering via Hierarchical View-to-Token Transportation [9.296275675671636]
本稿では,ビューレベルとトークンレベルの両方において,入力コンテキスト収集のための階層的アプローチを提案する。
具体的には、画素特徴とカメラパラメータを組み合わせることで、意味的内容と幾何学的位置の両方に基づいて、ビューの重要性を評価する。
フレームワークを3つの広く使用されているベンチマークで評価し、既存のチューニング不要の手法とトレーニングベースのアプローチに匹敵するパフォーマンスを大幅に改善したことを示す。
論文 参考訳(メタデータ) (2026-06-02T03:38:51Z) - CrossView Suite: Harnessing Cross-view Spatial Intelligence of MLLMs with Dataset, Model and Benchmark [77.29150285469736]
空間知能は、単一視点の知覚と理性を超えるためにマルチモーダルな大言語モデル(MLLM)を必要とする。
CrossView Suiteは、CrossViewSet、CrossViewBench、CrossViewerの3つの協調コンポーネントで開発しています。
提案手法は, 適応型空間領域トークンーザを備え, 微細なオブジェクト表現をキャプチャし, マルチビューオブジェクトを明示的にアライメントする。
論文 参考訳(メタデータ) (2026-05-18T16:31:31Z) - Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation [50.81551581148339]
本稿では、推論に基づくセグメンテーションフレームワークRelevant Reasoning(R$2$S)を紹介する。
推論に基づくセグメンテーションデータセットである3D ReasonSegについても紹介する。
どちらの実験も、R$2$Sと3D ReasonSegは、空間的推論能力の強い3D点雲知覚を効果的に達成することを示した。
論文 参考訳(メタデータ) (2025-06-29T06:58:08Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [69.56484419619919]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。