論文の概要: Reason, Then Re-reason: Cross-view Revisiting Improves Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2606.11683v1
- Date: Wed, 10 Jun 2026 05:52:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.315809
- Title: Reason, Then Re-reason: Cross-view Revisiting Improves Spatial Reasoning
- Title(参考訳): Reason, then Re-reason: 空間的推論を改善するクロスビューリバイジット
- Authors: Chaofan Ma, Zhenjie Mao, Yuhuan Yang, Fanqin Zeng, Yue Shi, Yingjie Zhou, Xiaofeng Cao, Jiangchao Yao,
- Abstract要約: 空間的推論は再考可能であるべきだと論じる。
トレーニング不要な2段階の推論時間フレームワークであるReReを提案する。
ReReによってオープンソースのMLLMが大幅に向上し、プロプライエタリな最先端のパフォーマンスに匹敵することを示す。
- 参考スコア(独自算出の注目度): 37.09676301107883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial reasoning from egocentric videos is inherently challenging because the observable evidence is constrained by the camera trajectory. Existing methods rely on single-turn inference, forcing models to resolve geometric ambiguity through semantic priors rather than verifiable evidence. We argue that spatial reasoning should be revisitable: conclusions formed under limited evidence should remain open to revision when complementary viewpoints become available. Building on this insight, we propose Reason, then Re-reason (ReRe), a training-free, inference-time framework with two phases: in the Reason Phase, an MLLM forms a spatial hypothesis from the original video; in the Re-reason Phase, it verifies or revises the hypothesis by observing a synthesized novel-view video. To enable effective cross-view revisiting, we design a Geometry-to-Video pipeline that renders strategically complementary novel views from predicted 3D geometry. These views feature an elevated, oblique perspective with scene-spanning coverage, while preserving the MLLM's native video interface without architectural modifications. Extensive evaluations on VSI-Bench and STI-Bench demonstrate that ReRe substantially boosts open-source MLLMs to rival proprietary state-of-the-art performance. Project page: https://zhenjiemao.github.io/ReRe/
- Abstract(参考訳): エゴセントリックなビデオからの空間的推論は、観察可能な証拠がカメラの軌跡によって制約されているため、本質的に困難である。
既存の手法は単ターンの推論に依存しており、検証された証拠ではなく、意味的な前提によって幾何学的曖昧さを解決せざるを得ない。
我々は、空間的推論は再検討可能であり、限定的な証拠の下で形成された結論は、相補的な視点が利用可能になったときに、再検討されるべきであると論じる。
この知見に基づいて、Reason, then Re-reason (ReRe) というトレーニングフリーで推論時間を持つフレームワークを提案する。Reason Phase では、MLLM が元のビデオから空間仮説を形成し、Re-reason Phase では、合成されたノベルビュービデオを観察して仮説を検証または修正する。
効果的にクロスビューを再考するために,予測された3次元幾何学から戦略的に補完的な新しいビューを描画するGeometry-to-Videoパイプラインを設計する。
これらのビューは、MLLMのネイティブビデオインターフェースをアーキテクチャの変更なしに保存しながら、シーンスパンニングのカバレッジで高められた斜めの視点を特徴としている。
VSI-Bench と STI-Bench の大規模な評価は、ReRe がオープンソース MLLM を大幅に向上し、プロプライエタリな最先端のパフォーマンスに匹敵することを示した。
プロジェクトページ: https://zhenjiemao.github.io/ReRe/
関連論文リスト
- STORM: Internalized Modeling for Spatial-Temporal Reasoning in Video-Language Models [81.32710031596591]
ビデオ推論タスクには、動きの追跡、時間順、フレーム全体の視覚状態の進化が必要である。
視覚言語モデル(LVLM)上に構築された既存の手法はしばしば、チェーン・オブ・ソート(CoT)を通じて推論を外部化することでこの問題に対処する。
STORMSは,LVLMに明示的なテキストCoTではなく,有界な連続的な潜在軌道を推論する2段階のフレームワークである。
論文 参考訳(メタデータ) (2026-05-25T16:33:00Z) - Spatiotemporal Sycophancy: Negation-Based Gaslighting in Video Large Language Models [54.76242207842981]
我々は,Vid-LLMが正解し,否定に基づくガス灯下での判断を視覚的に下す失敗モードであるビデオサイファーシーを同定した。
モデルは単に答えを変更するのではなく、しばしば不正確な修正を正当化するために時間的または空間的な説明を作る。
GasVideo-1000は,視覚的根拠と時間的推論の要求を明確化して,ビデオの時間的サイコフィケーシーを探索するためのベンチマークである。
論文 参考訳(メタデータ) (2026-04-20T06:35:26Z) - Make Geometry Matter for Spatial Reasoning [62.61667611352403]
視覚言語モデル(VLM)は、強いイメージと映像理解を実現するが、静的シーンとダイナミックビデオの両方で空間的推論を行う能力は限られている。
近年の進歩は、事前訓練された3次元基礎モデルから幾何学トークンをVLMに注入することで、この制限に対処しようとしている。
我々は、VLMが幾何トークンで積極的に推論するように促すことにより、幾何学的問題を作るためのフレームワークGeoSRを提案する。
論文 参考訳(メタデータ) (2026-03-27T17:45:12Z) - Process-of-Thought Reasoning for Videos [33.74677144833003]
Process-of-Thought (PoT) Reasoning for Videosは、ビデオ推論を軽量で検証可能なステップのシーケンスに構造化することで、推論プロセスを明確にするフレームワークである。
PoT は (i) 時間的エビデンス選択、 (ii) ステップワイズ状態更新、 (iii) 制限された応答合成をインターリーブし、ビデオエビデンスのトレーサビリティを維持しながら仮説を段階的に洗練することを可能にする。
論文 参考訳(メタデータ) (2026-02-07T20:25:46Z) - CamReasoner: Reinforcing Camera Movement Understanding via Structured Spatial Reasoning [40.654048754955404]
CamReasonerは、カメラムーブメントの理解を構造化推論プロセスとして再構築するフレームワークである。
我々は、この領域における論理的アライメントにRLを初めて採用し、運動推論が物理幾何学に基礎を置いていることを保証する。
論文 参考訳(メタデータ) (2026-01-30T04:45:43Z) - Reasoning Path and Latent State Analysis for Multi-view Visual Spatial Reasoning: A Cognitive Science Perspective [17.592210658831902]
空間推論は、人間の知性の中核的な側面であり、3D環境における知覚、推論、計画を可能にする。
現在の視覚言語モデル(VLM)は、多視点設定における空間的推論のための幾何学的コヒーレンスとクロスビュー整合性を維持するのに苦労している。
本稿では,VLMが相補的な視点で空間的メンタルモデルを構築し,調整し,維持する方法を評価するための,認知的基盤を持つベンチマークであるReMindView-Benchを紹介する。
論文 参考訳(メタデータ) (2025-12-02T02:21:29Z) - Video Spatial Reasoning with Object-Centric 3D Rollout [58.12446467377404]
我々は,ロバストなビデオ空間推論を実現するために,OCR(Object-Centric 3D Rollout)を提案する。
OCRは、トレーニング中に選択した物体の3次元形状に構造的摂動を導入する。
OCRはモデルを補完し、全体にわたって論理的にソートする。
論文 参考訳(メタデータ) (2025-11-17T09:53:41Z) - Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark [124.00111584020834]
我々は、ビデオモデルがゼロショット推論器として機能する準備が整っているかどうかを実証研究する。
私たちは、人気の高いVeo-3に注力しています。
我々は,空間的,幾何学的,物理的,時間的,具体的論理を含む12次元にわたる推論行動を評価する。
論文 参考訳(メタデータ) (2025-10-30T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。