論文の概要: Bridging Creative Intent and Visual Quality: Creator-Driven Recurrent Video Generation with Agentic Feedback Loops
- arxiv url: http://arxiv.org/abs/2606.18591v1
- Date: Wed, 17 Jun 2026 01:39:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.956649
- Title: Bridging Creative Intent and Visual Quality: Creator-Driven Recurrent Video Generation with Agentic Feedback Loops
- Title(参考訳): 創造インテントのブリッジと視覚的品質:エージェントフィードバックループによるクリエータ駆動リカレントビデオ生成
- Authors: Denis Savytski, Aiden Lei, Heding Liu, Warren Yang, Sihan Liang, Alexander Liu, Zhe Zhao,
- Abstract要約: CHIEFは人間とAIが共同で制作するビデオ生成フレームワークで、クリエイターを人間とループの反復的ビデオリファインメントの中心に配置する。
クリエーターは各イテレーションを駆動することで創造的な方向性を取り入れ、リビジョンは特別な精巧なエージェントによって取り入れられる。
提案手法の有効性を検証するため,映像制作経験のない高校生や大学生と共同でビデオ制作を行った。
- 参考スコア(独自算出の注目度): 36.169206628733484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI has made content creation increasingly accessible, but many AI-generated videos lack narrative coherence and creative direction, issues that become more substantial at longer durations. Unlike coding, where AI generation benefits from reliable feedback and techniques such as recurrent self-improvement, video generation requires subjective feedback about plot, scenes, and narrative, which naturally motivates approaches that incorporate human creative direction. We introduce CHIEF, a human-AI co-creation video generation framework that places the creator at the center of human-in-the-loop iterative video refinement, and supports them by providing automatic subjective feedback. The creator incorporates their creative direction by driving each iteration, while their revisions are incorporated by a specialized refiner agent. The feedback loop is generated by persona-conditioned multimodal LLMs that watch generated videos and produce subjective critique from the audience perspectives, providing feedback that self-evaluation alone cannot capture. To test the effectiveness of our proposed framework, we work with high school and college students with no prior filmmaking experience to create videos, from short 1-minute videos to a complete short 10-minute film with a complicated plot.
- Abstract(参考訳): 生成AIは、コンテンツ作成をますますアクセスしやすくしているが、多くのAI生成ビデオは、物語の一貫性と創造的な方向性を欠いている。
AI生成が信頼性の高いフィードバックや、繰り返し自己改善のようなテクニックの恩恵を受けるコーディングとは異なり、ビデオ生成にはプロット、シーン、物語に関する主観的なフィードバックが必要である。
我々は、人間とAIの共創ビデオ生成フレームワークCHIEFを紹介し、その作成者を人間とループの反復的ビデオリファインメントの中心に配置し、自動的な主観的フィードバックを提供することでそれらをサポートする。
クリエーターは各イテレーションを駆動することで創造的な方向性を取り入れ、リビジョンは特別な精巧なエージェントによって取り入れられる。
フィードバックループはペルソナ条件付きマルチモーダルLLMによって生成され、生成されたビデオを監視し、聴衆の視点から主観的批評を生成し、自己評価だけでは捉えられないフィードバックを提供する。
提案手法の有効性を検証するため, 映像制作経験のない高校生や大学生を対象に, 1分間の短い映像から, 複雑なプロット付き10分間の短編映像まで, ビデオ制作の現場で作業を行った。
関連論文リスト
- CutClaw: Agentic Hours-Long Video Editing via Music Synchronization [96.62825277039117]
CutClawは、数時間の生の映像を意味のある短いビデオに編集するために設計された、自律的なマルチエージェントフレームワークだ。
同期音楽の動画を制作し、指示と視覚的に魅力的な外観が続く。
われわれは、CutClawが高品質なリズムアライメントビデオを生成する際に、最先端のベースラインを大幅に上回っていることを示すための詳細な実験を行っている。
論文 参考訳(メタデータ) (2026-03-31T12:25:53Z) - Vidmento: Creating Video Stories Through Context-Aware Expansion With Generative Video [11.510907063539982]
Vidmentoは、キャプチャされたメディアと生成されたメディアを組み合わせたハイブリッドビデオストーリーを、コンテキスト対応の拡張を通じて作成するためのツールである。
Vidmentoはストーリー開発のための機会を表面化し、スタイリスティックかつ物語的に周囲のメディアとブレンドするクリップを生成し、改善のためのコントロールを提供する。
ヴィデメントは12人のクリエーターによる研究で、生成メディアで初期素材を体系的に拡張し、創造的な意図で表現力のあるビデオストーリーテリングを可能にし、物語の発達と探索を支援した。
論文 参考訳(メタデータ) (2026-01-29T17:19:06Z) - VISTA: A Test-Time Self-Improving Video Generation Agent [45.53495043750626]
VISTA (Video Iterative Self-IprovemenT Agent) は、反復ループでプロンプトを精製することで、ビデオ生成を自律的に改善する新しいシステムである。
ビデオの品質とユーザの意図との整合性を継続的に改善し、最先端のベースラインに対して最大60%の対等な勝利率を達成する。
人間の評価は一致し、VISTAの出力は66.4%である。
論文 参考訳(メタデータ) (2025-10-17T17:12:08Z) - AniMaker: Multi-Agent Animated Storytelling with MCTS-Driven Clip Generation [50.63646953706144]
AniMakerは、効率的なマルチ候補クリップ生成とストーリーテリング対応クリップ選択を可能にするフレームワークである。
AniMakerは、VBenchや提案したAniEvalフレームワークなど、一般的なメトリクスによって測定される、優れた品質を実現しています。
論文 参考訳(メタデータ) (2025-06-12T10:06:21Z) - Stealing Creator's Workflow: A Creator-Inspired Agentic Framework with Iterative Feedback Loop for Improved Scientific Short-form Generation [20.571381061542766]
SciTalkは、テキスト、フィギュア、ビジュアルスタイル、アバターなど、さまざまなソースで動画をグラウンド化するための新しいフレームワークである。
コンテンツクリエーターのイテレーションにインスパイアされたSciTalkは、コンテンツ要約、ビジュアルシーン計画、テキストとレイアウトの編集に特別なエージェントを使用する。
我々のフレームワークは、フィードバック駆動のビデオ生成の課題とメリットに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-26T05:22:35Z) - Llama Learns to Direct: DirectorLLM for Human-Centric Video Generation [54.561971554162376]
ビデオ内の人間のポーズを整理するために,大規模言語モデル(LLM)を用いた新しいビデオ生成モデルである DirectorLLM を紹介する。
我々のモデルは、人間の動きの忠実度を高め、迅速な忠実度を向上し、被写体自然性を向上する上で、既存のものよりも優れています。
論文 参考訳(メタデータ) (2024-12-19T03:10:26Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。
VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。
トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。