論文の概要: UnityShots: Memory-Driven Multi-Shot Audio-Video Generation with Boundary-Aware Gating
- arxiv url: http://arxiv.org/abs/2606.21661v1
- Date: Fri, 19 Jun 2026 18:06:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 04:15:56.215798
- Title: UnityShots: Memory-Driven Multi-Shot Audio-Video Generation with Boundary-Aware Gating
- Title(参考訳): UnityShots: 境界認識ゲーティングによるメモリ駆動型マルチショットオーディオビデオ生成
- Authors: Jiehui Huang, Yuechen Zhang, Bin Xia, Jiahao Wang, Xu He, Zhenchao Tang, Meng Chu, Xin Tao, Pengfei Wan, Jiaya Jia,
- Abstract要約: LTX-2.3上に構築されたメモリ駆動型マルチショットオーディオビデオ生成システムであるUnityShotsを紹介する。
ビデオストリームは、2つの固定サイズスロットと、開口ショットに固定された長期メモリ(LTM)スロットと、直前のテールを保持する短期メモリ(STM)スロットとを保持する。
音声ストリームは、ショット毎に基準話者トークンを注入し、スライド音声バンクを介さずに声の音色を保存する。
- 参考スコア(独自算出の注目度): 60.20680928161925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating a coherent multi-shot video requires structured cross-shot memory. Subject appearance, scene context, and speaker identity must persist across cuts. Existing approaches either train end-to-end over fixed-length sequences and cannot scale, generate shot-by-shot with memory banks that grow linearly, or orchestrate pretrained generators under an LLM planner without a multi-shot-aware backbone. We present UnityShots, a memory-driven multi-shot audio-video generation system built on LTX-2.3, trained on annotated cinematic and music-video shots. The video stream maintains two fixed-size slots, a long-term memory (LTM) slot anchored to the opening shot and a short-term memory (STM) slot holding the immediately preceding tail, both updated at every cut by a boundary-conditioned gate that fuses visual cut probability and beat-tracker signals. The audio stream injects a reference speaker token at every shot to preserve vocal timbre without a sliding audio bank. A discrete cut-type prior, learned through AdaLN, becomes an inference-time control knob over transition strength. We release a benchmark of $200$ multi-cultural multi-shot sequences spanning six ethnic regions and ten or more languages, with per-shot reference identities, reference audio, and per-boundary transition labels. Evaluated across I2V, T2V, and R2V conditioning modes, UnityShots leads open-source baselines on every cross-shot coherence metric and matches the strongest closed-source system on the multi-shot axes.
- Abstract(参考訳): コヒーレントなマルチショットビデオを生成するには、構造化されたクロスショットメモリが必要である。
主題の外観、シーンコンテキスト、話者のアイデンティティはカット全体で持続しなければなりません。
既存のアプローチでは、固定長シーケンス上でエンドツーエンドのトレーニングを行うか、スケールできないか、線形に成長するメモリバンクでショットバイショットを生成するか、あるいはマルチショットのバックボーンを使用せずにLLMプランナの下で事前トレーニングされたジェネレータをオーケストレーションする。
LTX-2.3をベースとしたメモリ駆動型マルチショットオーディオビデオ生成システムであるUnityShotsについて述べる。
ビデオストリームは、2つの固定サイズのスロットと、オープニングショットに固定された長期メモリ(LTM)スロットと、直前のテールを保持する短期メモリ(STM)スロットとを保持し、どちらも、視覚的カット確率とビートトラッカー信号を融合する境界条件付きゲートによって、カット毎に更新される。
音声ストリームは、ショット毎に基準話者トークンを注入し、スライド音声バンクを介さずに声の音色を保存する。
AdaLNを通じて学習された離散カット型先行は、遷移強度よりも推論時間制御ノブとなる。
我々は、6つの民族と10以上の言語にまたがる200ドルのマルチカルチャーなマルチショットシーケンスのベンチマークを公表した。
I2V、T2V、R2Vコンディショニングモードで評価され、UnityShotsはクロスショットコヒーレンスメトリックのオープンソースベースラインをリードし、マルチショット軸上で最強のクローズドソースシステムと一致する。
関連論文リスト
- TRADE: Transducer-Augmented Decoder for Speech LLM [52.69726809996728]
音声大言語モデル(Speech LLM)は、ストリーミング推論の原理的なメカニズムを欠いている。
音声エンコーダを共有するトランスデューサブランチでマルチモーダルLLMを増強するTRADE TRansducer-Augmented DEcoderを提案する。
3つの設計上の選択により、システムは正確で、ストリーミング可能で、長い形にすることができる。
論文 参考訳(メタデータ) (2026-06-07T07:15:34Z) - ReCA: Multi-Shot Long Video Extrapolation via Recursive Context Allocation [69.45329019089041]
マルチショットビデオ外挿(マルチショットビデオ外挿、Multi-Shot Video Extrapolation、MSVE)は、観察されたフレームまたはクリップを撮影的に構造化された一連のショットに拡張するタスクである。
MSVEは、長ビデオの障害は単にコンテキスト長の制限ではなく、コンテキスト割り当ての障害であることを明らかにした。
本稿では,再帰的コンテキスト割当(Recursive Context Allocation, ReCA)を提案する。
論文 参考訳(メタデータ) (2026-05-26T04:16:56Z) - LTX-2: Efficient Joint Audio-Visual Foundation Model [3.1804093402153506]
LTX-2は、時間的に同期されたオーディオヴィジュアルコンテンツを生成できるオープンソースモデルである。
より広範な理解のために多言語テキストエンコーダを用いる。
LTX-2は、各シーンのキャラクター、環境、スタイル、感情に従うリッチでコヒーレントなオーディオトラックを生成する。
論文 参考訳(メタデータ) (2026-01-06T18:24:41Z) - MultiShotMaster: A Controllable Multi-Shot Video Generation Framework [67.38203939500157]
現在の生成技術はシングルショットクリップで優れているが、物語的なマルチショットビデオを作成するのに苦労している。
高度に制御可能なマルチショットビデオ生成のためのフレームワークであるMultiShotMasterを提案する。
論文 参考訳(メタデータ) (2025-12-02T18:59:48Z) - SMART: Shot-Aware Multimodal Video Moment Retrieval with Audio-Enhanced MLLM [34.75500054479833]
Video Moment Retrievalは、自然言語クエリに基づいて、トリミングされていないビデオに特定の時間セグメントをローカライズすることを目的としている。
既存の手法の多くは、いまだに粗い時間的理解と単一の視覚的モダリティに依存しており、複雑なビデオのパフォーマンスを制限している。
textitShot-aware textitMulti textitAudio-enhanced textitRetrieval of textitSegmentsを紹介する。
論文 参考訳(メタデータ) (2025-11-18T05:03:17Z) - Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video [39.74394488889939]
Foley Controlは、ビデオ誘導型のFoleyに対する軽量なアプローチである。
事前訓練された単一モダリティモデルを凍結させ、それらの間の小さなクロスアテンションブリッジのみを学習する。
私たちはVideo-to-Foleyにフォーカスしていますが、同じブリッジデザインは、他のオーディオモダリティにも拡張できます。
論文 参考訳(メタデータ) (2025-10-24T15:49:54Z) - When and How to Cut Classical Concerts? A Multimodal Automated Video Editing Approach [9.554646174100123]
我々は,クラシック音楽コンサートのマルチカメラ録音の編集において,課題を2つの重要なサブタスクに分解することで解決する。
近年の文献に基づいて,時間分割作業のための新しいマルチモーダルアーキテクチャを提案する。
空間選択タスク(カットの方法)では、例えばResNetのような古いバックボーンからCLIPベースのエンコーダで更新し、同じコンサートのセグメントにイントラクタの選択を制限することで、文学を改善する。
論文 参考訳(メタデータ) (2025-10-07T08:18:27Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。
VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。
トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。