論文の概要: 4DP-QA: Scalable QA for 4D Perception in Vision Language Models
- arxiv url: http://arxiv.org/abs/2606.11568v1
- Date: Wed, 10 Jun 2026 01:49:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.243511
- Title: 4DP-QA: Scalable QA for 4D Perception in Vision Language Models
- Title(参考訳): 4DP-QA:視覚言語モデルにおける4次元知覚のためのスケーラブルQA
- Authors: Seokju Cho, Abhishek Badki, Hang Su, Jindong Jiang, Ziyao Zeng, Seungryong Kim, Sifei Liu, Orazio Gallo,
- Abstract要約: 本稿では、動きに関するシーン理解に焦点を当てた生成パイプラインを提案する。
本稿では,従来手法とTrue-Motion Trackingと呼ばれる新しい参照システムの両方でトラッキングをキャストすることで,カメラと物体の動きの絡み合いを特に注意する。
このパイプラインから400Kサンプル、4DP-QA(4D知覚QA)、2.2Kサンプルベンチマーク、4DP-QA-Benchの大規模なトレーニングデータセットを生成する。
- 参考スコア(独自算出の注目度): 68.67551474392373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances, Vision Language Models (VLMs) still struggle to grasp the dynamics of the world. We note that the ability to reason about a 4D scene, challenging in itself, is further complicated by two factors. First, VLMs observe motion indirectly via its projection onto 2D images. Second, existing datasets fail to disentangle object and camera motion. To address these challenges, we present a QA generation pipeline that focuses on motion-related scene understanding. We take particular care of the entanglement of camera and object motion by casting tracking in both the traditional way and in a novel, fixed reference system, dubbed True-Motion Tracking, which provides an intuitive description of motion. From this pipeline, we generate a large-scale training dataset of 400K samples, 4DP-QA (4D Perception QA), and a 2.2K-sample benchmark, 4DP-QA-Bench. Training existing models on our dataset yields performance improvements on an external benchmark, validating the effectiveness of our method.
- Abstract(参考訳): 近年の進歩にもかかわらず、ヴィジュアル言語モデル(VLM)は世界の力学を理解するのに苦戦している。
4Dシーンを推論する能力は、それ自体が困難であり、2つの要因によってさらに複雑である。
まず、VLMは2次元画像への投影を通して間接的に動きを観察する。
第二に、既存のデータセットはオブジェクトとカメラの動きを歪めない。
これらの課題に対処するために、動作関連シーン理解に焦点を当てたQA生成パイプラインを提案する。
本稿では,従来手法とTrue-Motion Tracking(True-Motion Tracking)と呼ばれる新しい参照システムにより,カメラと物体の動きの絡み合いを特に注意する。
このパイプラインから400Kサンプル、4DP-QA(4D知覚QA)、2.2Kサンプルベンチマーク、4DP-QA-Benchの大規模なトレーニングデータセットを生成する。
既存のモデルをデータセットでトレーニングすると、外部ベンチマークのパフォーマンスが向上し、メソッドの有効性が検証される。
関連論文リスト
- VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control [83.92729346325163]
VerseCrafterは、4D対応のビデオワールドモデルであり、カメラとオブジェクトのダイナミクスの両方を明示的で一貫性のある制御を可能にする。
当社のアプローチは,静的な背景点雲を通じて世界状態をエンコードする,新しい4次元幾何制御表現を中心にしている。
これらの4D制御は、事前訓練されたビデオ拡散モデルのための条件付け信号にレンダリングされ、高忠実でビュー一貫性のあるビデオを生成することができる。
論文 参考訳(メタデータ) (2026-01-08T17:28:52Z) - Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models [79.18306680174011]
DSR Suiteは、データセット、ベンチマーク、モデルの各面にギャップを埋める。
そこで本研究では,DSRビデオから複数問合せペアを生成する自動パイプラインを提案する。
パイプラインは、カメラポーズ、局所点雲、オブジェクトマスク、向き、および3Dトラジェクトリを含む、豊富な幾何学的および運動的な情報を抽出する。
論文 参考訳(メタデータ) (2025-12-23T17:56:36Z) - Tracking-Guided 4D Generation: Foundation-Tracker Motion Priors for 3D Model Animation [21.075786141331974]
スパース入力から動的4Dオブジェクトを生成するフレームワークであるemphTrack4DGenを提案する。
ステージ1では拡散発生器内の高密度な特徴レベル対応を強制する。
ステージ2では,ハイブリッドモーション符号化を用いて動的4D-GSを再構成する。
論文 参考訳(メタデータ) (2025-12-05T21:13:04Z) - AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes [63.055387623861094]
最近のテキスト・トゥ・ビデオ(T2V)モデルは、実世界の幾何学と物理法則の視覚シミュレーションにおいて強力な能力を示している。
本稿では,事前学習したT2Vモデルを用いて視点予測を行うための2段階のパラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-12T15:55:44Z) - Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields [56.184278668305076]
2次元視覚基礎モデルから4次元領域へ機能を拡張するための普遍的なフレームワークであるFeature4Xを紹介する。
このフレームワークは、まず、ビデオ基礎モデルの機能をSplattingを使って明示的な4D機能フィールドに蒸留し、持ち上げる。
実験では、新しいビューセグメント、幾何学的および外観的シーンの編集、全時間ステップにわたる自由形式VQAについて紹介した。
論文 参考訳(メタデータ) (2025-03-26T17:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。