論文の概要: DramaDirector: Geometry-Guided Short Drama Generation
- arxiv url: http://arxiv.org/abs/2606.24107v1
- Date: Tue, 23 Jun 2026 03:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.757736
- Title: DramaDirector: Geometry-Guided Short Drama Generation
- Title(参考訳): ドラマディレクタ:ジオメトリガイドによるショートドラマジェネレーション
- Authors: Hengji Zhou, Sijie Liu, Jianrun Chen, Xingchen Zou, Lianghao Xia, Liqiang Nie,
- Abstract要約: 本研究では,プロット・トゥ・ショート・ドラマ生成について検討し,プロット・トゥ・ショート・ドラマ生成において,グローバル・プロットとローカル・コンテクストを視覚的にグラウンド化されたマルチショット・ビデオに変換する。
そこで,本研究では,映像ギャラリーから映像幾何学を借用可能な幾何学的枠組みであるDramaDirectorを提案する。
また、35のライブアクションドラマ、2.8Kエピソード、81Kショットで作られたベンチマークであるDramaBoardを紹介します。
- 参考スコア(独自算出の注目度): 51.430988173490384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Short dramas, with their rapid shot rhythms, dialogue-driven focus shifts, and demanding cinematographic grounding, pose challenges that prompt-level or text-only video generation pipelines struggle to meet. We study plot-to-short-drama generation, where a global plot and local context are transformed into visually grounded multi-shot videos. We propose DramaDirector, a geometry-grounded framework that lets the planner borrow cinematographic geometry from a gallery of real short-drama shots indexed by depth and pose. DramaDirector decouples each shot into static visual and dynamic narrative conditions, trains the planner with schema-constrained SFT and GRPO under a learned text-visual alignment reward, and retrieves depth-pose references to guide first-frame generation and image-to-video synthesis. We also introduce DramaBoard, a benchmark built from 35 live-action dramas, 2.8K episodes, and 81K shots, with structured storyboards and multi-dimensional evaluation protocols. Experiments show that DramaDirector improves over representative multi-agent and video generation baselines on faithfulness, consistency, and controllability. Our code is released at: https://github.com/iLearn-Lab/DramaDirector
- Abstract(参考訳): ショートドラマは、素早いショットリズム、対話駆動のフォーカスシフト、撮影基盤の要求などがあり、プロンプトレベルやテキストのみのビデオ生成パイプラインが満たすのに苦労する課題を提起する。
本研究では,プロット・トゥ・ショート・ドラマ生成について検討し,プロット・トゥ・ショート・ドラマ生成において,グローバル・プロットとローカル・コンテクストを視覚的にグラウンド化されたマルチショット・ビデオに変換する。
そこで,本研究では,映像の深度とポーズを指標とした映像のギャラリーから,映像幾何学的図形を借用可能な幾何学的接地型フレームワークDramaDirectorを提案する。
ドラマディレクタは、各ショットを静的な視覚的および動的な物語的条件に分離し、学習されたテキスト-視覚的アライメント報酬の下で、スキーマ制約付きSFTとGRPOでプランナーを訓練し、第一フレームの生成と画像-ビデオ合成をガイドする深さ-目的参照を取得する。
また、35のライブアクションドラマ、2.8Kエピソード、81Kショットで構築されたベンチマークであるDramaBoardを紹介し、構造化されたストーリーボードと多次元評価プロトコルについて紹介する。
実験により,DramaDirectorは,忠実度,一貫性,制御性に基づく代表的マルチエージェントおよびビデオ生成ベースラインよりも改善されていることが示された。
私たちのコードは、https://github.com/iLearn-Lab/DramaDirectorでリリースされています。
関連論文リスト
- One Sentence, One Drama: Personalized Short-Form Drama Generation via Multi-Agent Systems [17.754369892506542]
One Sentence, One Dramaは階層的なマルチエージェントフレームワークで、ユーザの単一文のアイデアを完全な短編ドラマに変換する。
提案手法は,(1)ショートドラマのパッシングと物語のコヒーレンスを強制するマルチエージェントの議論ベースのストーリー生成モジュール,(2)一貫したキャラクタの位置決めとシーンレイアウトのための共有空間参照を確立する3次元1フレーム生成機構,(3)包括的エラー検出とスクリプト,視覚,映像生成ステージ間のターゲットリビジョンを行うマルチステージレビュアループの3つの主要な構成要素に基づいて構築されている。
論文 参考訳(メタデータ) (2026-05-21T08:15:46Z) - Soap2Soap: Long Cinematic Video Remaking via Multi-Agent Collaboration [61.98029663481308]
Soap2SoapはDualBridgeメカニズムを通じて長期の視覚的一貫性を強制するマルチエージェントフレームワークである。
クローズドループ検証エージェントは、識別、安定性、アライメントを監査し、選択的再生を誘導する。
論文 参考訳(メタデータ) (2026-05-17T12:38:21Z) - Captain Cinema: Towards Short Movie Generation [66.22442526026215]
我々は、短編映画生成のための世代フレームワークであるキャプテン・シネマを提示する。
我々のアプローチは、物語全体を概説する一連の合成を生成する。
我々のモデルは、インターリーブされたデータペアからなる特別にキュレートされたデータセットで訓練されている。
論文 参考訳(メタデータ) (2025-07-24T17:59:56Z) - CineVerse: Consistent Keyframe Synthesis for Cinematic Scene Composition [23.795982778641573]
CineVerseは、シーン構成のタスクのための新しいフレームワークである。
従来のマルチショット生成と同様に、我々のタスクはフレーム間の一貫性と連続性の必要性を強調する。
我々の課題は、複数のキャラクター、複雑な相互作用、視覚的映像効果など、映画制作に固有の課題に対処することにも焦点を当てている。
論文 参考訳(メタデータ) (2025-04-28T15:28:14Z) - Total-Recon: Deformable Scene Reconstruction for Embodied View Synthesis [76.72505510632904]
長い単眼のRGBDビデオから変形可能なシーンを再構成する最初の方法であるTotal-Reconを提案する。
本手法は背景と物体にシーンを階層的に分解し,動作を根体運動と局所的調音に分解する。
論文 参考訳(メタデータ) (2023-04-24T17:59:52Z) - A Local-to-Global Approach to Multi-modal Movie Scene Segmentation [95.34033481442353]
我々は、150本の映画から21Kの注釈付きシーンセグメントを含む大規模なビデオデータセット、MovieScenesを構築した。
本稿では,クリップ,セグメント,映画の3段階にわたるマルチモーダル情報を統合するローカル・グローバルシーンセグメンテーションフレームワークを提案する。
実験の結果,提案するネットワークは,映画を高い精度でシーンに分割し,従来手法より一貫した性能を発揮することがわかった。
論文 参考訳(メタデータ) (2020-04-06T13:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。