論文の概要: GeoT2V-Bench: Benchmarking 3D Consistency in Text-to-Video Models via 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2606.24829v1
- Date: Tue, 23 Jun 2026 17:12:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.128866
- Title: GeoT2V-Bench: Benchmarking 3D Consistency in Text-to-Video Models via 3D Reconstruction
- Title(参考訳): GeoT2V-Bench:3次元再構成によるテキスト・ビデオモデルの3次元一貫性のベンチマーク
- Authors: Chenrui Fan, Paolo Favaro,
- Abstract要約: GeoT2V-Benchは、カメラプロップされたT2Vクリップが明確な3D再構成をサポートするかどうかを評価するための診断ベンチマークである。
可視的な動き、静的なレンダリングエラー、フローコンセンサス、フレキシブル-vs-静的な動作は、しばしば相反する。
- 参考スコア(独自算出の注目度): 23.56618120729796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camera-prompted text-to-video (T2V) models are increasingly used to synthesize virtual camera captures, such as orbiting objects or moving through static scenes. For these outputs, visual plausibility is insufficient: the generated frames should also provide coherent multi-view evidence for a single static 3D scene. We introduce GeoT2V-Bench, a reconstruction-based diagnostic benchmark for evaluating whether camera-prompted T2V clips can support explicit rigid 3D reconstruction. Our pipeline estimates per-frame camera intrinsics and poses with VGGT-style geometry estimation, fits DeformableGS, derives a static MedianGS proxy by temporal-median aggregation, and renders this proxy along the estimated camera path. Instead of producing a pass/fail label or a single scalar score, GeoT2V-Bench reports a continuous reconstruction profile covering apparent image motion, estimated trajectory behavior, MedianGS static rendering error, static-render flow agreement, and the gap between flexible and static fits. On a fair-format four-seed evaluation with 3,840 completed reconstructions from 12 open-weight model configurations and 80 GeCo-Eval static-scene prompts, we find that visible motion, static rendering error, flow agreement, and flexible-vs-static behavior often disagree. GeoT2V-Bench therefore captures complementary failure modes that emerge when generated videos are tested as global static-scene acquisitions.
- Abstract(参考訳): カメラプロップされたテキスト・トゥ・ビデオ(T2V)モデルは、オブジェクトの周回や静的なシーンの移動といった仮想カメラキャプチャーの合成にますます利用されている。
生成されたフレームは、単一の静的な3Dシーンに対して、一貫性のあるマルチビューエビデンスを提供する必要がある。
GeoT2V-Benchは, カメラプロンプトされたT2Vクリップが明示的な剛性3D再構成をサポートできるかどうかを評価するための, 再構成に基づく診断ベンチマークである。
パイプラインはフレーム当たりのカメラ固有の特徴を推定し,VGGTスタイルの幾何推定,DeformableGSの適合,時間中間アグリゲーションによる静的MedianGSプロキシの導出,推定カメラパスに沿ってこのプロキシをレンダリングする。
パス/フェイルラベルや単一スカラースコアを生成する代わりに、GeoT2V-Bench氏は、見かけのイメージの動き、推定軌跡の挙動、MedianGSの静的レンダリングエラー、静的レンダリングフローアグリーメント、フレキシブルと静的フィットのギャップをカバーした継続的再構成プロファイルを報告している。
12個のオープンウェイトモデル構成と80個のGeCo-Eval静的シーンプロンプトから3,840個の完全復元を施したフェアフォーマト4シード評価では、可視運動、静的レンダリングエラー、フローコンセンサス、フレキシブルvs静的な動作がよく一致しないことがわかった。
そこでGeoT2V-Benchは、生成されたビデオがグローバルな静的シーンの取得としてテストされるときに現れる補完的な障害モードをキャプチャする。
関連論文リスト
- Geometry-as-context: Modulating Explicit 3D in Scene-consistent Video Generation to Geometry Context [33.99324999592141]
Scene-Consistent Video Generationは、カメラの軌跡に基づいて3Dシーンを探索するビデオを作成することを目的としている。
従来の手法では、外部メモリを用いたビデオ生成モデルに一貫性がある。
これらの制限を克服するために、幾何・アズ・コンテクスト”を導入します。
論文 参考訳(メタデータ) (2026-02-25T14:09:03Z) - 3D Scene Prompting for Scene-Consistent Camera-Controllable Video Generation [55.29423122177883]
3DScenePromptは任意の長さの入力から次のチャンクを生成するフレームワークである。
カメラの制御とシーンの一貫性の維持を可能にする。
我々のフレームワークは、シーンの一貫性、カメラ制御性、生成品質において、既存の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-10-16T17:55:25Z) - GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering [54.489285024494855]
ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。
既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。
ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
論文 参考訳(メタデータ) (2025-06-30T15:24:27Z) - St4RTrack: Simultaneous 4D Reconstruction and Tracking in the World [106.91539872943864]
St4RTrackは、RGB入力から世界座標フレーム内の動的ビデオコンテンツを同時に再構成し、追跡するフレームワークである。
静的および動的シーン幾何学の両方をキャプチャして、同じ世界において、同時に両方のポイントマップを予測する。
統合されたデータ駆動フレームワークの有効性と効率を実証し、世界フレームの再構築と追跡のための新しい広範囲なベンチマークを構築します。
論文 参考訳(メタデータ) (2025-04-17T17:55:58Z) - T-3DGS: Removing Transient Objects for 3D Scene Reconstruction [83.05271859398779]
映像シーケンスにおける過渡的オブジェクトは、3Dシーン再構成の品質を著しく低下させる可能性がある。
我々は,ガウススプラッティングを用いた3次元再構成において,過渡的障害を頑健に除去する新しいフレームワークT-3DGSを提案する。
論文 参考訳(メタデータ) (2024-11-29T07:45:24Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。