論文の概要: GroundShot: Visually Consistent Multi-Shot Long Video Generation via Entity-Grounded Shot Scheduling
- arxiv url: http://arxiv.org/abs/2606.20799v1
- Date: Thu, 18 Jun 2026 18:00:03 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:24:57.005282
- Title: GroundShot: Visually Consistent Multi-Shot Long Video Generation via Entity-Grounded Shot Scheduling
- Title(参考訳): GroundShot:Entity-Grounded Shot Schedulingによる視覚的に一貫性のある複数ショット長ビデオ生成
- Authors: Yixuan Lai, Tianjia Shao, Kun Zhou, Weijia Dou, Siyu Zhu, Jingdong Wang,
- Abstract要約: textbfGroundShotは、エンティティ・グラウンド・マルチショット生成のためのトレーニング不要でモデルに依存しないエージェント・フレームワークである。
GroundShotは、承認された生成されたショットから、エンティティレベルのビジュアルメモリをオンラインで構築する。
実験によると、GroundShotは既存のメソッドよりもマルチショットの一貫性を向上し、追加のトレーニングやモデル修正は不要である。
- 参考スコア(独自算出の注目度): 48.381235555561965
- License:
- Abstract: Generating visually consistent multi-shot videos remains an open challenge. As videos span more shots, inconsistencies can accumulate across shots, causing entities that reappear across shots -- characters, objects, and locations -- to drift away from how they first appear. We observe that viewers judge consistency by comparing each later appearance of an entity with its first clear appearance; the visual quality of this initial appearance sets the consistency ceiling for all that follows. Motivated by this, we present \textbf{GroundShot}, a training-free, model-agnostic agentic framework for entity-grounded multi-shot generation. GroundShot builds an entity-level visual memory online from accepted generated shots: it schedules shots' generation order by their expected usefulness as entity references, grounds entities from generated videos, verifies their reliability before adding them to memory, and retrieves suitable entity references from memory before each shot is generated. To evaluate this entity-centered view of consistency, we further introduce \textbf{GroundBench}, a diagnostic benchmark that measures consistency at the entity level while isolating controlled challenge dimensions. Experiments show that GroundShot improves multi-shot consistency over existing methods while requiring no additional training or model modification.
- Abstract(参考訳): 視覚的に一貫したマルチショットビデオを生成することは、まだオープンな課題だ。
ビデオがより多くのショットにまたがるにつれて、不整合がショット全体に蓄積され、キャラクター、オブジェクト、場所など、ショットにまたがって現れるエンティティが、最初に現れる方法から遠ざかる。
視聴者は、後続の実体の外観と最初の明快な外観とを比較して一貫性を判断し、初期外観の視覚的品質は、以下の全てに対して一貫性の天井を設定する。
そこで我々は,エンティティ・グラウンド・マルチショット生成のためのトレーニング不要でモデルに依存しないエージェント・フレームワークである \textbf{GroundShot} を提案する。
GroundShotは、承認された生成されたショットからエンティティレベルのビジュアルメモリをオンラインで構築する。それは、エンティティ参照として期待される有用性によって、ショットの生成順序をスケジュールし、生成されたビデオからエンティティをグラウンドし、メモリに追加する前に信頼性を確認し、各ショットが生成される前に、メモリから適切なエンティティ参照を検索する。
このエンティティ中心の一貫性の観点を評価するために、制御された課題次元を分離しながらエンティティレベルでの一貫性を測定する診断ベンチマークである \textbf{GroundBench} を導入する。
実験によると、GroundShotは既存のメソッドよりもマルチショットの一貫性を向上し、追加のトレーニングやモデル修正は不要である。
関連論文リスト
- Closed-Loop Triplet Synergistic Generation for Long-Form Video [61.88597038104749]
CoSyTriGenは、クローズドループビジュアル-テキスト-メモリのシナジープロセスとしてマルチショット長ビデオ生成を定式化するエージェントフレームワークである。
この三重項に対して視覚言語モデルに基づくアナライザが原因となり、2つの経路に沿ってプロンプトとメモリの両方を更新する。
StoryBenchベンチマークの実験では、代表法よりもクロスショット一貫性、即効性、撮影連続性を大幅に改善した。
論文 参考訳(メタデータ) (2026-06-15T03:56:43Z) - EntityBench: Towards Entity-Consistent Long-Range Multi-Shot Video Generation [16.322441569982647]
実話メディアから派生した140エピソード(2,491ショット)のベンチマークであるEntityBenchを紹介する。
3ピラー評価スイートと組み合わせて、ショット内品質、プロンプト追従アライメント、ショット間の一貫性を歪めます。
実験により、既存手法の繰り返し距離によって、クロスショットエンティティの整合性は著しく低下することが示された。
論文 参考訳(メタデータ) (2026-05-14T17:59:55Z) - PLACID: Identity-Preserving Multi-Object Compositing via Video Diffusion with Synthetic Trajectories [22.63777279327245]
PLACIDは、オブジェクトイメージの集合を魅力的なマルチオブジェクト複合体に変換するフレームワークである。
まず、事前訓練された画像間拡散モデルとテキスト制御を用いて、オブジェクトの一貫性、アイデンティティ、背景の詳細を保存する。
第2に、ランダムに配置されたオブジェクトがターゲット位置へスムーズに移動する合成シーケンスを生成する新しいデータキュレーション戦略を提案する。
論文 参考訳(メタデータ) (2026-01-30T19:42:54Z) - VideoMemory: Toward Consistent Video Generation via Memory Integration [28.605816634949814]
VideoMemoryは、Dynamic Memory Bankを通じてナラティブプランニングとビジュアルジェネレーションを統合する。
ダイナミックメモリバンクは、文字、小道具、背景の明示的な視覚的および意味的な記述を格納する。
この検索更新機構は、遠距離ショット間のエンティティの一貫性のある表現を可能にし、コヒーレントなロングフォーム生成をサポートする。
論文 参考訳(メタデータ) (2026-01-07T07:10:32Z) - FilmWeaver: Weaving Consistent Multi-Shot Videos with Cache-Guided Autoregressive Diffusion [46.67733869872552]
textbfFilmWeaverは任意の長さで一貫したマルチショットビデオを生成するように設計されたフレームワークである。
私たちの重要な洞察は、問題をショット間の一貫性とショット内のコヒーレンスに分離することです。
本手法は, 整合性と美的品質の両面において, 既存の手法を超越した手法である。
論文 参考訳(メタデータ) (2025-12-12T04:34:53Z) - AlcheMinT: Fine-grained Temporal Control for Multi-Reference Consistent Video Generation [58.844504598618094]
本稿では、被験者駆動ビデオ生成のための明示的なタイムスタンプ条件付きフレームワークAlcheMinTを提案する。
提案手法では,時間間隔の符号化を解き放つ新しい位置符号化機構を導入する。
我々は、視覚的アイデンティティとビデオキャプションの結合を強化するために、主観記述型テキストトークンを導入し、世代間あいまいさを緩和する。
論文 参考訳(メタデータ) (2025-12-11T18:59:34Z) - Consistent Human Image and Video Generation with Spatially Conditioned Diffusion [82.4097906779699]
一貫性のある人中心画像とビデオ合成は、所定の参照画像との外観整合性を維持しつつ、新しいポーズを持つ画像を生成することを目的としている。
我々は,課題を空間条件付き塗装問題とみなし,対象画像をインペイントして参照との外観整合性を維持する。
このアプローチにより、参照機能により、統一された認知ネットワーク内でのポーズ準拠のターゲットの生成をガイドすることができる。
論文 参考訳(メタデータ) (2024-12-19T05:02:30Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。