論文の概要: 4DVLT: Dynamic Scene Understanding with Worldline-Centered Vision-Language Tracking
- arxiv url: http://arxiv.org/abs/2606.22631v1
- Date: Sun, 21 Jun 2026 18:33:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:15:09.680802
- Title: 4DVLT: Dynamic Scene Understanding with Worldline-Centered Vision-Language Tracking
- Title(参考訳): 4DVLT:Worldline-Centered Vision-Language Trackingによる動的シーン理解
- Authors: Chaoyue Li, Boxue Yang, Shengyao Zhou, Haoyang Wu, Rui Qian, Linfeng Zhang,
- Abstract要約: 命令条件付き4次元動的シーン理解のためのワールドライン中心タスクである textbf4DVLT を紹介する。
グラフ条件付きワールドライン推論として命令条件付きトラッキングをキャストする textbf4DTrack を提案する。
その結果,ワールドライン中心のモデリングにより,ターゲットの接地と回復したワールドラインの品質が向上することがわかった。
- 参考スコア(独自算出の注目度): 12.29407900173211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 4D dynamic scene understanding requires grounding language to a persistent worldline that binds identity, metric 3D motion, and synchronized multi-view 2D projections. Existing paradigms capture only part of this structure: large multimodal models reason over rich visual evidence but rarely preserve metric topology, while vision-language tracking remains tied to fragmented 2D or 3D outputs and local continuation. We therefore introduce \textbf{4DVLT}, a worldline-centered task for instruction-conditioned 4D dynamic scene understanding in fully observed multi-view video, and \textbf{Instruct-4D}, a benchmark with 129.4K question-answer pairs, 64.7K target entities, 851 scenes, and 9 reasoning-oriented query types. To address this setting, we present \textbf{4DTrack}, which casts instruction-conditioned tracking as graph-conditioned worldline inference through an object-centric 4D state graph, metric-guided routing, bidirectional decoding, and kinematic calibration. On Instruct-4D, 4DTrack-Qwen3.5-9B reaches 62.68 $\mathrm{TGA}_{\mathrm{Top1}}$ and surpasses the best adapted VLT baseline by 19.62 points. These results show that worldline-centered modeling improves both target grounding and recovered worldline quality. The project page is available at https://github.com/mikubaka88/4DVLT.
- Abstract(参考訳): 4D動的シーン理解には、アイデンティティ、メートル法3Dモーション、および同期化されたマルチビュー2Dプロジェクションを結合する永続的ワールドラインへの基底言語が必要である。
大規模なマルチモーダルモデルはリッチな視覚的証拠を推論するが、計量トポロジーはまれに保存するが、視覚言語追跡は断片化された2Dまたは3D出力と局所的な継続に結びついている。
そこで本研究では, マルチビュービデオにおける命令条件付き4次元動的シーン理解のためのワールドライン中心タスクである \textbf{4DVLT} と, 129.4K の質問応答対, 64.7K のターゲットエンティティ, 851 のシーン, 9 の推論指向クエリタイプを備えたベンチマークである \textbf{Instruct-4D} を紹介する。
この設定に対処するために、対象中心の4D状態グラフ、メトリック誘導ルーティング、双方向デコーディング、およびキネマティックキャリブレーションを通じて、命令条件付きトラッキングをグラフ条件付きワールドライン推論としてキャストする \textbf{4DTrack} を提案する。
Instruct-4Dでは、4DTrack-Qwen3.5-9Bが62.68$\mathrm{TGA}_{\mathrm{Top1}}$に達し、最高のVLTベースラインを19.62ポイント上回る。
これらの結果から,ワールドライン中心のモデリングにより,ターゲットの接地と回復したワールドラインの品質が向上することが示唆された。
プロジェクトページはhttps://github.com/mikubaka88/4DVLTで公開されている。
関連論文リスト
- Sparse3DTrack: Monocular 3D Object Tracking Using Sparse Supervision [16.586885757497203]
モノクロ3Dオブジェクトトラッキングは、ビデオフレーム全体で時間的に一貫した3Dオブジェクトのポーズを推定することを目的としている。
既存の最先端のアプローチは、完全に監視されており、長いビデオシーケンスよりも密集した3Dアノテーションに依存している。
モノクロ3次元物体追跡のための最初の教師付きフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-18T21:36:41Z) - Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels [67.36972154532761]
モノクロビデオから各ピクセルの3D軌跡を推定することは重要であり、ビデオの3Dダイナミックスを包括的に理解する上で有望である。
最近のモノラルな3D追跡作業は印象的な性能を示しているが、第1フレーム上のスパースポイントのトラッキングや、高密度トラッキングのための遅い最適化ベースのフレームワークに限られている。
そこで我々は,Track4Worldと呼ばれるフィードフォワードモデルを提案し,世界中心座標系における全画素の効率的な3D追跡を可能にする。
論文 参考訳(メタデータ) (2026-03-03T03:45:43Z) - C4D: 4D Made from 3D through Dual Correspondences [77.04731692213663]
時間的対応を利用して既存の3次元再構成を4Dに拡張するフレームワークであるC4Dを紹介する。
C4Dは、短期光学フローと長期点追跡の2種類の対応をキャプチャする。
我々は、追加の移動情報を提供する動的認識ポイントトラッカーを訓練する。
論文 参考訳(メタデータ) (2025-10-16T17:59:06Z) - Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - St4RTrack: Simultaneous 4D Reconstruction and Tracking in the World [106.91539872943864]
St4RTrackは、RGB入力から世界座標フレーム内の動的ビデオコンテンツを同時に再構成し、追跡するフレームワークである。
静的および動的シーン幾何学の両方をキャプチャして、同じ世界において、同時に両方のポイントマップを予測する。
統合されたデータ駆動フレームワークの有効性と効率を実証し、世界フレームの再構築と追跡のための新しい広範囲なベンチマークを構築します。
論文 参考訳(メタデータ) (2025-04-17T17:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。