論文の概要: Dense Reward for Multi-View 3D Reasoning with Global Maps and Local Views
- arxiv url: http://arxiv.org/abs/2606.23557v1
- Date: Mon, 22 Jun 2026 16:28:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 18:13:12.912277
- Title: Dense Reward for Multi-View 3D Reasoning with Global Maps and Local Views
- Title(参考訳): Dense Reward for Multi-View 3D Reasoning with Global Maps and Local Views
- Authors: Jiho Choi, Seonho Lee, Seojeong Park, Hyunjung Shim,
- Abstract要約: 本稿では,地図に基づく学習フレームワークであるDRMV3D(Dense Reward for MV3DVQA)について述べる。
提案手法は,MV3D-VQAを, (i) 同中心のグローバルマップ構築, (ii)質問条件のビュー・トラジェクトリ計画, (iii) 回答予測のためのエゴセントリックグラウンドに分解する。
手動のアノテーションを使わずに中間ステップを学習できるようにするために,予測地図を幾何一貫性のある擬似目標に整合させる大域的一貫性報酬と,順序付き視点選択を監督する局所軌道報酬という2つの報酬を導入する。
- 参考スコア(独自算出の注目度): 38.3893077130601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-view 3D Visual Question Answering (MV3D-VQA) requires integrating partial observations into a coherent 3D scene representation and selecting informative viewpoints for multi-step spatial reasoning. However, current multimodal LLMs are typically trained with sparse, answer-level supervision, which often yields inconsistent cross-view reasoning and brittle view selection. We present DR-MV3D (Dense Reward for MV3D-VQA), a map-grounded learning framework that provides dense, verifiable rewards to supervise the reasoning process. Our approach decomposes MV3D-VQA into (i) allocentric global map construction, (ii) question-conditioned view-trajectory planning, and (iii) egocentric grounding for answer prediction. To make intermediate steps learnable without manual annotations, we introduce two rewards: a global consistency reward that aligns the predicted map with geometry-consistent pseudo targets from frozen 3D vision foundation models (e.g., VGGT + SAM3), and a local trajectory reward that supervises ordered viewpoint selection. We optimize the full pipeline with trajectory-level policy optimization (GRPO). Experiments on MindCube, VSI-Bench, and BLINK (MV) show that DR-MV3D consistently improves over strong multi-image baselines, supporting the effectiveness of process-level dense supervision for multi-view 3D reasoning.
- Abstract(参考訳): MR3D-VQA (Multi-view 3D Visual Question Answering) では、部分的な観察をコヒーレントな3Dシーン表現に統合し、多段階空間推論のための情報的視点を選択する必要がある。
しかしながら、現在のマルチモーダル LLM は、通常、スパース、応答レベルの監督で訓練され、しばしば一貫性のないクロスビュー推論と不安定なビュー選択をもたらす。
本稿では, DR-MV3D(Dense Reward for MV3D-VQA)について述べる。
我々のアプローチはMV3D-VQAを分解する
(i)全地球地図構築
(二)質問条件の視点軌道計画、及び
三 解答予測のための自我中心的根拠
手動のアノテーションを使わずに中間ステップを学習できるようにするために、凍結した3次元視覚基盤モデル(例えば、VGGT + SAM3)から予測マップを幾何学的に一貫性のある擬似ターゲットと整合するグローバル整合報酬と、順序付き視点選択を監督する局所軌道報酬という2つの報酬を導入する。
トラジェクトリレベルのポリシー最適化(GRPO)で全パイプラインを最適化する。
MindCube、VSI-Bench、BLINK(MV)の実験では、DR-MV3Dは強力なマルチイメージベースラインよりも一貫して改善され、マルチビュー3D推論におけるプロセスレベル密集監視の有効性が裏付けられている。
関連論文リスト
- MV-SAM: Multi-view Promptable Segmentation using Pointmap Guidance [79.57732829495843]
本稿では,ポイントマップを用いた3次元一貫性を実現する多視点セグメンテーションフレームワークMV-SAMを紹介する。
MV-SAMは画像を持ち上げて3D空間にプロンプトし、明示的な3Dネットワークや注釈付き3Dデータを必要としない。
論文 参考訳(メタデータ) (2026-01-25T15:00:37Z) - HMR3D: Hierarchical Multimodal Representation for 3D Scene Understanding with Large Vision-Language Model [14.277165215664425]
大規模視覚言語モデル (VLM) は3次元シーン理解に大きな可能性を示唆している。
既存のVLMベースのアプローチは、通常、VLMの埋め込み空間と3Dシーンの特徴を一致させる。
本稿では3次元シーン推論のための新しい階層型マルチモーダル表現を提案する。
論文 参考訳(メタデータ) (2025-11-28T08:06:20Z) - Advancing 3D Scene Understanding with MV-ScanQA Multi-View Reasoning Evaluation and TripAlign Pre-training Dataset [56.533371387182065]
MV-ScanQAは、新しい3D質問応答データセットである。
本稿では,大規模かつ低コストな2D-3D言語事前学習コーパスTripAlignについて紹介する。
さらに,MV-ScanQAにおける多視点推論のためのベースライン手法であるLEGOを開発し,事前学習した2次元LVLMの知識をTripAlignで3Dドメインに転送する。
論文 参考訳(メタデータ) (2025-08-14T20:35:59Z) - Multi-View Attentive Contextualization for Multi-View 3D Object Detection [19.874148893464607]
MvACon(Multi-View Attentive Contextualization)は,クエリベース3D(MV3D)オブジェクト検出における2D-to-3D機能向上のための,シンプルかつ効果的な手法である。
実験では、提案されたMvAConは、BEVFormerと最近の3Dデフォルマブルアテンション(DFA3D)とPETRの両方を用いて、nuScenesベンチマークで徹底的にテストされている。
論文 参考訳(メタデータ) (2024-05-20T17:37:10Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。