論文の概要: CineOrchestra: Unified Entity-Centric Conditioning for Cinematic Video Generation
- arxiv url: http://arxiv.org/abs/2606.13768v2
- Date: Tue, 16 Jun 2026 17:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 13:57:35.105853
- Title: CineOrchestra: Unified Entity-Centric Conditioning for Cinematic Video Generation
- Title(参考訳): CineOrchestra:シネマビデオ生成のための統一エンティティ中心コンディショニング
- Authors: Sharath Girish, Tsai-Shien Chen, Zhikang Dong, Mukesh Singhal, Hao Chen, Sergey Tulyakov, Aliaksandr Siarohin,
- Abstract要約: CineOrchestraは、被写体、イベント、カメラ、ショットトランジションを同時に制御する統合ビデオ拡散モデルである。
私たちの重要な洞察は、これらの異質な映画要素が基本的な構造を共有しているということです。
CineOrchestraは、高密度キャプションとショット・トランジションのタイミングで、アクセントあたりのスペシャリスト6人を上回っている。
- 参考スコア(独自算出の注目度): 57.47993858752813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cinematic video depicts multiple subjects acting or interacting at specific moments, captured with deliberate camera movement, and stitched together by shot transitions. Together, these elements demand a level of fine-grained control beyond current text-to-video models. Existing work addresses each axis in isolation: multi-subject personalization, temporal control, multi-shot synthesis, or camera control; no prior framework jointly integrates all four. We present CineOrchestra, a unified video diffusion model that controls subjects, events, cameras, and shot transitions simultaneously. Our key insight is that these heterogeneous cinematic elements share a fundamental structure: each is an entity acting over a specific temporal interval, which can therefore all be expressed through one shared structure of entity-centric conditioning primitives, augmented with reference images for visual entities. This formulation reduces the architectural challenge to a single positional encoding problem, which we solve with two parameter-free coordinated rotary embeddings: (a) an interval-sampled temporal RoPE that yields consistent attention behavior across events of dramatically varying duration, and (b) a 2D entity-temporal cross-attention RoPE that disambiguates per-entity conditions and routes each to its corresponding spatiotemporal region. On two new benchmarks, CineOrchestra outperforms six per-axis specialists on dense caption following and shot-transition timing, with consistent gains in a pairwise user study and component ablations. Project page: https://snap-research.github.io/CineOrchestra
- Abstract(参考訳): シネマティックビデオは、特定の瞬間に行動したり、相互作用する複数の被験者を描写し、カメラの動きを意図的に捉え、ショットの遷移によって縫い合わせる。
これらの要素は、現行のテキスト・ツー・ビデオモデルを超えて、きめ細かい制御を要求される。
既存の作業は、それぞれの軸を独立して扱う: マルチオブジェクトのパーソナライゼーション、時間制御、マルチショット合成、カメラ制御。
CineOrchestraは、被写体、イベント、カメラ、ショットトランジションを同時に制御する統合ビデオ拡散モデルである。
これらの異種映画要素は基本構造を共有しており、それぞれが特定の時間間隔に作用する実体であり、従って、視覚的エンティティの参照画像で拡張された、エンティティ中心の条件付けプリミティブの共有構造を通して全て表現することができる。
この定式化は、設計上の課題を1つの位置符号化問題に還元し、パラメータフリーな2つの回転埋め込みで解決する。
(a)時間的に異なる事象に対して一貫した注意行動をもたらす間隔サンプリング時RoPE、及び
b) 2Dエンティティ・テンポラル・クロスアテンション RoPE は、各エンタリティ条件を曖昧にし、それぞれ対応する時空間領域にルートする。
CineOrchestraは2つの新しいベンチマークで、密度の高いキャプションとショット・トランジションのタイミングでアクセントあたりのスペシャリスト6人を上回った。
プロジェクトページ: https://snap-research.github.io/CineOrchestra
関連論文リスト
- From Synchrony to Sequence: Exo-to-Ego Generation via Interpolation [54.68405211129937]
Exo-Seqto-Egoビデオ生成は、同期された3人称と対応するカメラポーズから1人称ビューを合成することを目的としている。
同期されたExo-egoデータは本質的に時間的不連続を導入し、標準ビデオ生成ベンチマークのスムーズな動作仮定に違反する。
我々は、ソースとターゲットビデオの間に補間して単一の連続信号を形成するシーケンシャルシーケンスモデルであるSyn2Ex-Forcingを提案する。
論文 参考訳(メタデータ) (2026-04-15T12:32:25Z) - DCDM: Divide-and-Conquer Diffusion Models for Consistency-Preserving Video Generation [77.89090846233906]
我々はDivide-and-Conquer Diffusion Model (DCDM)と呼ばれるシステムレベルのフレームワークを提案する。
DCDMは、統合されたビデオ生成バックボーンを共有しながら、ビデオ一貫性モデリングを3つの専用コンポーネントに分解する。
我々は,AAAI'26におけるCVMコンペティションのテストセットにおけるフレームワークの検証を行い,提案手法がこれらの課題に効果的に対処できることを実証した。
論文 参考訳(メタデータ) (2026-02-14T07:02:36Z) - MultiShotMaster: A Controllable Multi-Shot Video Generation Framework [67.38203939500157]
現在の生成技術はシングルショットクリップで優れているが、物語的なマルチショットビデオを作成するのに苦労している。
高度に制御可能なマルチショットビデオ生成のためのフレームワークであるMultiShotMasterを提案する。
論文 参考訳(メタデータ) (2025-12-02T18:59:48Z) - InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。
無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。
HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文 参考訳(メタデータ) (2025-08-19T17:55:23Z) - Hierarchical Relation-augmented Representation Generalization for Few-shot Action Recognition [43.84348967231349]
アクション認識は、新しいアクションカテゴリーをほとんど見ない形で認識することを目的としている。
既存の手法は通常、フレーム間の時間的モデリング戦略を設計することで、各ビデオのフレームレベル表現を学習する。
FSARのための階層的関係強化表現一般化フレームワークHR2G-shotを提案する。
論文 参考訳(メタデータ) (2025-04-14T10:23:22Z) - JointTuner: Appearance-Motion Adaptive Joint Training for Customized Video Generation [13.168628936598367]
JointTunerは、外観とモーションコンポーネントのジョイント最適化を可能にするフレームワークである。
AiT Lossは外見に関連するコンポーネントの流れを乱し、モデルがモーション学習のみに集中するように誘導する。
JointTunerは、UNetベースのモデルとDiffusion Transformerベースのモデルの両方と互換性がある。
論文 参考訳(メタデータ) (2025-03-31T11:04:07Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Hierarchical Attention Network for Action Segmentation [45.19890687786009]
イベントの時間的セグメンテーションは、ビデオにおける人間の行動の自動認識のための重要なタスクであり、前駆体である。
我々は、時間とともに行動間の関係をよりよく学習できる、エンドツーエンドの教師あり学習手法を提案する。
我々は,MERLショッピング,50サラダ,ジョージア技術エゴセントリックデータセットなど,公開ベンチマークデータセットの課題を評価する。
論文 参考訳(メタデータ) (2020-05-07T02:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。