論文の概要: LooseControlVideo: Directorial Video Control using Spatial Blocking
- arxiv url: http://arxiv.org/abs/2606.19495v1
- Date: Wed, 17 Jun 2026 18:32:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.485987
- Title: LooseControlVideo: Directorial Video Control using Spatial Blocking
- Title(参考訳): LooseControlVideo:空間的ブロッキングを用いたディレクトリビデオ制御
- Authors: Shariq Farooq Bhat, Niloy J. Mitra, Kalyan Sunkavalli,
- Abstract要約: 本稿では,疎結合な3Dボックスを"ブロッキング"プロキシとして使用することで,直感的で表現力のある制御を可能にするフレームワークであるLooseControlVideoを提案する。
DNOCSを付加したビデオデータセット上で、Wan 2.2のバックボーンを微調整することで、これを実現する。
その結果, 軌道誤差の1.2倍から3倍, 剛体運動の2倍, 咬合精度の1.5倍から2倍に改善した。
- 参考スコア(独自算出の注目度): 44.01478894715323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Precise 3D spatial orchestration in text-to-video generation remains a significant challenge, particularly for multi-object scenes where semantic layout and temporal dynamics are often entangled. While existing depth-conditioned models achieve good structural fidelity, they necessitate dense, frame-accurate guidance that is labor-intensive to author for dynamic events involving deformable objects. We present LooseControlVideo, a framework that enables intuitive and expressive control by using sparse, oriented 3D boxes as a "blocking" proxy. This allows users to author high-level layout and trajectory while leveraging a video generative model to generate realistic occlusions, dynamics and interactions. We achieve this by fine-tuning a Wan 2.2 backbone on a video dataset annotated with DNOCS, a novel encoding for 3D size, orientation and depth-ordered occlusions. Furthermore, our method allows for localized refinement, such as adjusting a jump trajectory or adding an interaction, with minimal disruption to the global scene context. Extensive evaluations on the nuScenes, HO-3D, and BEHAVE benchmarks demonstrate that LooseControlVideo significantly outperforms existing 2D-box and flow-based baselines. Our findings indicate a 1.2x to 3x improvement in Trajectory Error; 2x improvement in Rigid Motion Consistency; and a 1.5x to 2x increase in Occlusion Accuracy over current state-of-the-art layout-conditioned models, demonstrating that oriented 3D primitives provide good geometric prior for complex, multi-agent video authoring.
- Abstract(参考訳): テキスト・ビデオ生成における高精度な3次元空間オーケストレーションは、特にセマンティックなレイアウトと時間的ダイナミクスが絡み合っているマルチオブジェクトシーンにおいて、依然として重要な課題である。
既存の深度条件付きモデルは優れた構造的忠実性を達成するが、変形可能な物体を含む動的事象の著者にとって労働集約的な、密度の高いフレーム精度のガイダンスを必要とする。
本稿では,疎結合な3Dボックスを"ブロッキング"プロキシとして使用することで,直感的で表現力のある制御を可能にするフレームワークであるLooseControlVideoを提案する。
これにより、ユーザーはビデオ生成モデルを活用しながら、高レベルのレイアウトと軌道を作成でき、リアルな閉塞、ダイナミックス、インタラクションを生成することができる。
DNOCSを付加したビデオデータセット上で、Wan 2.2のバックボーンを微調整することで、これを実現できる。
さらに,ジャンプ軌道の調整やインタラクションの追加といった局所的な改善を,グローバルシーンのコンテキストに最小限の混乱を伴って実現している。
nuScenes, HO-3D, BEHAVEベンチマークの大規模な評価は、LooseControlVideoが既存の2Dボックスとフローベースラインを大きく上回っていることを示している。
以上の結果から, 軌道誤差の1.2倍から3倍, 剛体運動の2倍, 1.5倍から2倍のオクルージョン精度が向上し, 3Dプリミティブが複雑なマルチエージェントビデオオーサリングに優れた幾何学的先行性が得られることが示された。
関連論文リスト
- VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction [59.303842406260124]
VGGT-Editはテキスト条件のネイティブ3Dシーン編集のためのフィードフォワードフレームワークである。
本研究では,奥行き同期テキストインジェクションを導入し,意味的指導をバックボーンの空間的ポーズと整合させる。
VGGT-Editは2Dリフトベースラインを大幅に上回り、よりシャープなオブジェクトの詳細、より強力なマルチビュー一貫性、ほぼインスタントな推論速度を生み出している。
論文 参考訳(メタデータ) (2026-05-14T17:59:04Z) - 3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model [18.407923160013404]
本稿では,3DreamBoothと3Dapterを組み合わせた3D対応ビデオカスタマイズフレームワークを提案する。
3DreamBoothは1フレーム最適化のパラダイムを通じて時間運動から空間幾何学を分離する。
きめ細かいテクスチャを強化し,収束を加速するために,視覚条件モジュールである3Dapterを組み込んだ。
論文 参考訳(メタデータ) (2026-03-19T06:14:05Z) - Sparse3DTrack: Monocular 3D Object Tracking Using Sparse Supervision [16.586885757497203]
モノクロ3Dオブジェクトトラッキングは、ビデオフレーム全体で時間的に一貫した3Dオブジェクトのポーズを推定することを目的としている。
既存の最先端のアプローチは、完全に監視されており、長いビデオシーケンスよりも密集した3Dアノテーションに依存している。
モノクロ3次元物体追跡のための最初の教師付きフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-18T21:36:41Z) - GeoDiff3D: Self-Supervised 3D Scene Generation with Geometry-Constrained 2D Diffusion Guidance [8.625308061265754]
3Dシーン生成は、ゲーム、フィルム/VFX、VR/ARのコア技術である。
既存の手法は、間接的な2D-to-3D再構成と直接的な3D生成という2つのパラダイムに大きく従っている。
構造的アンカーとして粗い幾何学と幾何学制約付き2次元拡散モデルを用いてテクスチャリッチな参照画像を提供する,効率的な自己教師型フレームワークGeoDiff3Dを提案する。
論文 参考訳(メタデータ) (2026-01-27T16:47:35Z) - Motion4D: Learning 3D-Consistent Motion and Semantics for 4D Scene Understanding [54.859943475818234]
基礎モデルからの2次元先行を統一された4次元ガウススプラッティング表現に統合する新しいフレームワークであるMotion4Dを提案する。
1) 局所的な一貫性を維持するために連続的に動き場と意味体を更新する逐次最適化,2) 長期的コヒーレンスのために全ての属性を共同で洗練するグローバル最適化,である。
提案手法は,ポイントベーストラッキング,ビデオオブジェクトセグメンテーション,新しいビュー合成など,多様なシーン理解タスクにおいて,2次元基礎モデルと既存の3Dベースアプローチの両方に優れる。
論文 参考訳(メタデータ) (2025-12-03T09:32:56Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。