Fugu-MT 論文翻訳(概要): IDAG-Edit: Multi-Object Video Editing via Instance-Decoupled Attention and Guidance

論文の概要: IDAG-Edit: Multi-Object Video Editing via Instance-Decoupled Attention and Guidance

arxiv url: http://arxiv.org/abs/2606.22042v1
Date: Sat, 20 Jun 2026 13:47:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-25 23:04:24.459089
Title: IDAG-Edit: Multi-Object Video Editing via Instance-Decoupled Attention and Guidance
Title（参考訳）: IDAG-Edit: インスタンス分離型アテンションとガイダンスによるマルチオブジェクトビデオ編集
Authors: Yuan-Zhih Lin, Huu-Thang Nguyen, Huu-Phu Do, Hong-Han Shuai, Ching-Chun Huang,
Abstract要約: IDAGEditは、時間的一貫性の強い細粒度マルチオブジェクトビデオ編集のためのトレーニング不要のフレームワークである。本手法は,最先端のビデオ編集手法に対する時間的安定性と多目的制御性を向上する。
参考スコア（独自算出の注目度）: 26.00049090733744
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Diffusion-based video editing has made significant progress; however, achieving precise and temporally consistent object-level control, especially in multi-object scenarios, remains challenging due to attention leakage, identity drift, and unstable temporal dynamics. In this work, we propose IDAGEdit, a training-free framework for fine-grained multi-object video editing with strong temporal consistency. The framework adopts Layout-guided Attention Modulation to facilitate coherent multi-object editing, while Instance-level Masks are introduced to preserve individual object identity and enforce localized attention within each object region, thereby enabling fine-grained, object-level editing. Extensive qualitative and quantitative evaluations demonstrate that our method improves temporal stability and multi-object controllability over state-of-the-art video editing approaches.
Abstract（参考訳）: 拡散に基づくビデオ編集は大きな進歩を遂げているが、特に多目的シナリオにおいて、正確で時間的に一貫したオブジェクトレベルの制御を達成することは、注意漏れ、アイデンティティのドリフト、不安定な時間的ダイナミクスのために困難である。本研究では,時間的一貫性の強い細粒度多目的ビデオ編集のためのトレーニングフリーフレームワークであるIDAGEditを提案する。このフレームワークは、Layout-guided Attention Modulationを採用し、コヒーレントな複数オブジェクトの編集を容易にする一方、インスタンスレベルのマスクは個々のオブジェクトのアイデンティティを保存し、各オブジェクト領域内で局所的な注意を強制することにより、きめ細かいオブジェクトレベルの編集を可能にする。広汎な質的,定量的評価により,最先端のビデオ編集手法に対する時間的安定性と多目的制御性の向上が示された。

関連論文リスト

Occlusion-Aware Physics-Semantic Keyframe Selection for Robust Video Editing [53.06890499054828]
下流編集のための最適なアンカーフレームを自動的に識別するオクルージョン対応選択フレームワークを提案する。我々のフレームワークは、手動のアノテーションを必要とせずに、正確かつ時間的に一貫した編集を可能にする。
論文参考訳（メタデータ） (2026-05-22T03:19:24Z)
MLV-Edit: Towards Consistent and Highly Efficient Editing for Minute-Level Videos [4.3184511910208325]
MLV-Editは、マイクロレベルのビデオ編集のためのトレーニング不要なフローベースのフレームワークである。 2つのコアモジュールによって促進されるセグメンテーションワイドな編集に、ディバイス・アンド・コンカ戦略を採用している。時間的安定性と意味的忠実性の観点から、最先端の手法を一貫して上回っている。
論文参考訳（メタデータ） (2026-02-02T14:07:00Z)
ConsistEdit: Highly Consistent and Precise Training-free Visual Editing [17.162316662697965]
本稿では,MM-DiTに適した新しいアテンション制御手法であるConsistEditを提案する。視覚のみの注意制御、マスク誘導型事前注意融合、クエリ、キー、バリュートークンの操作を区別する。構造整合性および構造整合性の両方のシナリオを含む、幅広い画像およびビデオ編集タスクにおける最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-10-20T17:59:52Z)
O-DisCo-Edit: Object Distortion Control for Unified Realistic Video Editing [88.93410369258203]
O-DisCo-Editは、新しいオブジェクト歪み制御(O-DisCo)を組み込んだ統合フレームワークであるこの信号はランダムノイズと適応ノイズに基づいて、単一の表現内に幅広い編集キューを柔軟にカプセル化する。 O-DisCo-Editは、効果的なトレーニングパラダイムによる効率的な高忠実な編集を可能にする。
論文参考訳（メタデータ） (2025-09-01T16:29:39Z)
MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation [55.101611012677616]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは,グローバルビデオ編集タスクにおいて顕著な結果を示した。我々は、オープンドメインビデオ編集のための事前訓練されたT2Iモデル上に構築された、チューニング不要なMAEフレームワークであるMAKIMAを紹介する。
論文参考訳（メタデータ） (2024-12-28T02:36:51Z)
DriveEditor: A Unified 3D Information-Guided Framework for Controllable Object Editing in Driving Scenes [23.215760822443194]
DriveEditorは、動画のオブジェクト編集のための拡散ベースのフレームワークである。再配置、置換、削除、挿入を含む包括的なオブジェクト編集操作のための統一されたフレームワークを提供する。
論文参考訳（メタデータ） (2024-12-27T04:49:36Z)
VIA: Unified Spatiotemporal Video Adaptation Framework for Global and Local Video Editing [91.60658973688996]
我々は,グローバルなローカルビデオ編集のための統合ビデオ適応フレームワークであるVIAを導入し,一貫したビデオ編集の限界を推し進める。本研究では,各フレーム内の局所的な一貫性を確保するため,事前学習した画像編集モデルに適応するテスト時間編集適応を設計した。また,VIAは長時間の映像編集を一貫した時間で行うことができ,ビデオ編集作業が長続きする可能性を秘めていることを示す。
論文参考訳（メタデータ） (2024-06-18T17:51:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。