論文の概要: OmniDirector: General Multi-Shot Camera Cloning without Cross-Paired Data
- arxiv url: http://arxiv.org/abs/2606.13432v1
- Date: Thu, 11 Jun 2026 14:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.862314
- Title: OmniDirector: General Multi-Shot Camera Cloning without Cross-Paired Data
- Title(参考訳): OmniDirector:クロスペアデータなしの汎用マルチショットカメラクローン
- Authors: Jiwen Liu, Shujuan Li, Zhixue Fang, Xiaohan Li, Yan Zhou, Zijie Meng, Zhimin Zhang, Yawen Luo, Guoxin Zhang, Yu-Shen Liu, Pengfei Wan,
- Abstract要約: 我々は、カメラをグリッドモーションビデオとしてエンコードする一般的なカメラモーション表現を導入する。
このカメラグリッドは、カメラパラメータを視覚的に表現し、マルチショットビデオ生成のための多様なトラジェクトリの統合をサポートする。
OmniDirectorは,100万台のカメラグリッドとビデオのペアで訓練された統合フレームワークである。
- 参考スコア(独自算出の注目度): 47.59993927255196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cloning camera motion from reference videos is an important task in video generation, as videos provide intuitive and precise control. Existing methods either directly use parametric representations that fail to handle multi-shot generation or synthesize cross-paired data, which suffer from data scarcity, resulting in poor performance in complicated camera motion cloning. To address these issues, we introduce a general camera motion representation that encodes cameras as grid motion videos. This camera grid represents the camera parameters visually and supports the integration of diverse trajectories for multi-shot video generation. Building upon this, we propose OmniDirector, a unified framework trained on a million-scale camera grid-video pairs that coordinates characters, actions, and cameras to provide director-level control for multimodal diffusion transformers. Furthermore, we design a novel hierarchical prompt expansion agent that harmoniously integrates different control signals by systematically describing camera motion and visual content through understanding signal relationships. Extensive experiments demonstrate the superior performance and outstanding controllability of our framework. Project page: https://ymlinfeng.github.io/OmniDirector.github.io/
- Abstract(参考訳): ビデオは直感的で正確な制御を提供するため、ビデオ生成において、参照ビデオからのカメラモーションのクローンは重要なタスクである。
既存の手法では、マルチショット生成の処理に失敗したパラメトリック表現を直接使用するか、データの不足に苦しむクロスペア化データを合成する。
これらの問題に対処するために、カメラをグリッドモーションビデオとしてエンコードする一般的なカメラモーション表現を導入する。
このカメラグリッドは、カメラパラメータを視覚的に表現し、マルチショットビデオ生成のための多様なトラジェクトリの統合をサポートする。
そこで我々は,OmniDirectorを提案する。OmniDirectorは,マルチモーダル拡散トランスフォーマーのディレクタレベル制御を実現するために,キャラクタ,アクション,カメラをコーディネートする,100万規模のカメラグリッドビデオペアをトレーニングした統合フレームワークである。
さらに,カメラの動きと視覚的内容の体系的記述により,異なる制御信号を調和的に統合する新しい階層的プロンプト拡張エージェントを設計する。
大規模な実験は、我々のフレームワークの優れた性能と優れた制御性を示します。
プロジェクトページ:https://ymlinfeng.github.io/OmniDirector.github.io/
関連論文リスト
- Unified Camera Positional Encoding for Controlled Video Generation [48.5789182990001]
トランスフォーマーは、3D知覚、ビデオ生成、自律運転のための世界モデル、そしてAIを具体化するための普遍的なバックボーンとして登場した。
本稿では、6-DoFポーズ、内在性、レンズ歪みを含む完全なカメラ情報を統一する幾何学一貫性表現であるRelative Rayを紹介する。
システム的なトレーニングと評価を容易にするため,広い範囲のカメラモーションとレンズタイプをカバーする大規模なビデオデータセットを構築した。
論文 参考訳(メタデータ) (2025-12-08T07:34:01Z) - Modular-Cam: Modular Dynamic Camera-view Video Generation with LLM [43.889033468684445]
本稿では,新しいテキスト・ビデオ生成手法,すなわちModular-Camを提案する。
与えられた複雑なプロンプトをよりよく理解するために、大きな言語モデルを用いてユーザ命令を解析する。
カメラビューにマッチするダイナミックなシーンを含む映像を生成するために,広範に使用されている時間変換器を組み込んだ。
論文 参考訳(メタデータ) (2025-04-16T13:04:01Z) - OmniCam: Unified Multimodal Video Generation via Camera Control [42.94206239207397]
カメラの位置やポーズを変えることで多様な視覚効果を実現するカメラ制御は、広く注目を集めている。
既存の手法は複雑な相互作用や限定的な制御能力といった課題に直面している。
我々は、誘導時間的に一貫したビデオを生成する統合カメラフレームワークであるOmniCamを紹介する。
論文 参考訳(メタデータ) (2025-04-03T06:38:30Z) - Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
制御ネットライクなコンディショニング機構を用いて3次元カメラ制御のためのトランスフォーマー映像の改ざん方法を示す。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Training-free Camera Control for Video Generation [15.79168688275606]
本稿では,市販ビデオ拡散モデルに対して,カメラの動き制御を実現するためのトレーニングフリーで堅牢なソリューションを提案する。
本手法では,カメラ注釈付きデータセットの教師付き微調整やデータ拡張による自己教師型トレーニングは不要である。
ほとんどの事前訓練されたビデオ拡散モデルでプラグイン・アンド・プレイでき、単一の画像またはテキストプロンプトを入力としてカメラ制御可能なビデオを生成することができる。
論文 参考訳(メタデータ) (2024-06-14T15:33:00Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。