論文の概要: TIDE: Task-Isolated Diffusion for Unified Video Editing and Generation
- arxiv url: http://arxiv.org/abs/2606.08260v1
- Date: Sat, 06 Jun 2026 17:11:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.003865
- Title: TIDE: Task-Isolated Diffusion for Unified Video Editing and Generation
- Title(参考訳): TIDE: 統合ビデオ編集と生成のためのタスク分離拡散
- Authors: Qi Liu, Gang Yue, Mingyu Yin, Lisai Zhang, Yidi Wu, Yaole Wang, Yaohui Wang, Chang Yao, Jingyuan Chen, Lin Ma,
- Abstract要約: 拡散変換器はビデオ生成と編集の急速な進歩を促しているが、これらの機能は依然としてタスク固有のモデルで処理されている。
命令ベースの編集,参照誘導編集,マルチ参照生成を統合した統合フレームワークであるTIDEを提案する。
- 参考スコア(独自算出の注目度): 30.09687573502619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Diffusion Transformers have driven rapid progress in video generation and editing, yet these capabilities are still handled by separate, task-specific models. Building a unified framework that supports diverse video tasks remains an open challenge: existing unified attempts either require dedicated auxiliary encoders or lack explicit mechanisms to distinguish heterogeneous conditioning tokens, struggling when the number and type of visual conditions vary across tasks. We propose TIDE, a unified framework that integrates instruction-based editing, reference-guided editing, and multi-reference generation. At its core, we introduce per-token task embeddings that assign each input token a task-specific identifier, enabling the model to explicitly disambiguate target, source, and reference tokens. To simultaneously capture high-level semantic understanding and fine-grained structural fidelity, we design a dual-path conditioning scheme that couples a vision-language model with a VAE latent path for complementary signals. We further devise a multi-task progressive training strategy that incrementally introduces tasks of increasing complexity, effectively harmonizing diverse objectives and enabling smooth generalization across heterogeneous task distributions. Extensive experiments on multiple video editing and generation benchmarks demonstrate that TIDE achieves state-of-the-art performance across all evaluated tasks. Our project page is available at https://LittleWork123.github.io/tide.
- Abstract(参考訳): 拡散変換器の最近の進歩は、ビデオ生成と編集の急速な進歩をもたらしたが、これらの機能は依然としてタスク固有の別のモデルによって処理されている。
多様なビデオタスクをサポートする統一されたフレームワークの構築は、未解決の課題である: 既存の統一された試みでは、専用の補助エンコーダを必要とするか、異種条件付けトークンを区別するための明示的なメカニズムが欠如している。
命令ベースの編集,参照誘導編集,マルチ参照生成を統合した統合フレームワークであるTIDEを提案する。
その中核となるのは、各入力トークンにタスク固有の識別子を割り当てるタスクごとの埋め込みを導入し、モデルがターゲット、ソース、参照トークンを明確に曖昧にすることを可能にする。
高レベルな意味理解ときめ細かな構造的忠実度を同時に捉えるために,視覚言語モデルとVAE潜時経路を結合して補完信号を生成するデュアルパス条件付きスキームを設計した。
さらに、複雑化のタスクを段階的に導入し、多様な目的を効果的に調和させ、不均一なタスク分布を円滑に一般化するマルチタスクプログレッシブトレーニング戦略を考案する。
複数のビデオ編集および生成ベンチマークに関する大規模な実験は、TIDEがすべての評価されたタスクで最先端のパフォーマンスを達成することを示す。
私たちのプロジェクトページはhttps://LittleWork123.github.io/tide.comで公開されている。
関連論文リスト
- Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing [93.8111348452324]
Tele-Omniはビデオ生成と編集のための統合されたフレームワークで、マルチモーダルな指示に従う。
テキスト・ツー・ビデオ生成、画像・ビデオ生成、ファースト・ラスト・フレーム・ビデオ生成、イン・コンテクスト・ビデオ生成、およびイン・コンテクスト・ビデオ編集をサポートする。
論文 参考訳(メタデータ) (2026-02-10T10:01:16Z) - VINO: A Unified Visual Generator with Interleaved OmniModal Context [36.71641694179164]
VINOは、単一のフレームワーク内で画像とビデオの生成と編集を行う統合ビジュアルジェネレータである。
タスク固有のモデルやモジュールを各モダリティに依存するのではなく、VINOは共有拡散バックボーンを使用する。
論文 参考訳(メタデータ) (2026-01-05T18:56:34Z) - Tracking and Segmenting Anything in Any Modality [75.32774085793498]
そこで我々はSATAという汎用的なトラッキング・セグメンテーション・フレームワークを提案し、このフレームワークは任意のモダリティ入力でトラッキング・セグメンテーション・サブタスクの広帯域を統一する。
SATAは18の挑戦的なトラッキングとセグメンテーションベンチマークで優れたパフォーマンスを示し、より一般化可能なビデオ理解のための新しい視点を提供する。
論文 参考訳(メタデータ) (2025-11-22T09:09:22Z) - FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [55.01077993490845]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。
本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文 参考訳(メタデータ) (2025-06-20T07:46:40Z) - UNIC: Unified In-Context Video Editing [76.76077875564526]
UNIC(Unified In-Context Video Editing)は、単一のモデル内でさまざまなビデオ編集タスクをコンテキスト内で統一するフレームワークである。
本稿では,一貫した時間的位置エンコーディングを容易にするタスク認識型RoPEと,モデルの異なる編集タスクを明確に区別する条件バイアスを導入する。
その結果、我々の統合された手法は各タスクにおいて優れた性能を発揮し、創発的なタスク構成能力を示すことがわかった。
論文 参考訳(メタデータ) (2025-06-04T17:57:43Z) - FullDiT: Multi-Task Video Generative Foundation Model with Full Attention [37.776430879317765]
FullDiTはビデオ生成のための統一基盤モデルであり、統合されたフルアテンション機構によって複数の条件をシームレスに統合する。
実験により、FullDiTは最先端の結果を達成し、複雑なマルチタスクビデオ生成におけるフルアテンションの有効性を強調した。
論文 参考訳(メタデータ) (2025-03-25T17:59:06Z) - VACE: All-in-One Video Creation and Editing [18.809248697934397]
VACEにより、ユーザーは作成と編集のためのオールインワンフレームワーク内でビデオタスクを実行できる。
VACEを導入し、ユーザが作成と編集のためのオールインワンフレームワーク内でビデオタスクを実行できるようにする。
論文 参考訳(メタデータ) (2025-03-10T17:57:04Z) - MIGE: Mutually Enhanced Multimodal Instruction-Based Image Generation and Editing [25.118495616895597]
MIGEはマルチモーダル命令を使ってタスク表現を標準化する統合フレームワークである。
まず、対象駆動生成を空白キャンバス上の生成として扱い、命令ベースの編集を既存の画像の修正として扱う。
MIGEは、命令ベースの主観的編集の新しいタスクにSOTAを設定しながら、主観的生成と命令に基づく編集の両面で優れている。
論文 参考訳(メタデータ) (2025-02-28T18:21:08Z) - Video Task Decathlon: Unifying Image and Video Tasks in Autonomous
Driving [85.62076860189116]
Video Task Decathlon (VTD)には、分類、セグメンテーション、ローカライゼーション、オブジェクトとピクセルの関連にまたがる10の代表的な画像とビデオタスクが含まれている。
我々は、単一の構造と10タスクすべてに一組の重みを持つ統合ネットワークVTDNetを開発した。
論文 参考訳(メタデータ) (2023-09-08T16:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。