論文の概要: Hybrid Diffusion Transformer for Instruction-Guided Audio Editing via Rectified Flow
- arxiv url: http://arxiv.org/abs/2606.20101v1
- Date: Thu, 18 Jun 2026 11:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.818586
- Title: Hybrid Diffusion Transformer for Instruction-Guided Audio Editing via Rectified Flow
- Title(参考訳): 正規化流による指示誘導オーディオ編集のためのハイブリッド拡散変換器
- Authors: Liting Gao, Yonggang Zhu, Yaru Chen, Dongyu Wang, Shubin Zhang, Zhenbo Li, Jean-Yves Guillemaut, Wenwu Wang,
- Abstract要約: 命令誘導音声編集のためのハイブリッド2段階拡散変換器アーキテクチャを提案する。
低解像度の段階で粗いセマンティックアライメントを確立するために音声とテキストトークンを共同で注目し、次に、高解像度の段階で編集の詳細を洗練するために、共同アテンションブロックと交差アテンションブロックを交互に切り替える。
- 参考スコア(独自算出の注目度): 21.976898083812674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio editing aims to modify specific content in an existing audio clip according to a natural language instruction while preserving the remaining acoustic content. Despite the remarkable progress of diffusion models, existing training-based editing methods mainly rely on the local inductive biases and cross-attention interaction in convolutional U-Net backbones, which often hinder long-range semantic alignment and precise understanding and localization of instructions. In contrast, diffusion transformers provide stronger global modeling and multimodal fusion, but existing editing architectures usually adopt a simple stack of MMDiT and DiT blocks. Applying joint attention over concatenated audio and text tokens in all blocks results in quadratic complexity with respect to token length. To balance editing performance and efficiency, we propose a hybrid two-stage diffusion transformer architecture for instruction-guided audio editing based on rectified flow matching. It performs joint attention over audio and text tokens to establish coarse semantic alignment at low-resolution stage, then switches to alternating joint-attention and cross-attention blocks to refine editing details at high-resolution stage. This coarse-to-fine strategy enables efficient and accurate instruction-guided audio editing. Experiments show that the proposed framework achieves notable performance gains on challenging editing tasks involving overlapping audio events and complex instructions, while substantially improving editing efficiency with a compact model.
- Abstract(参考訳): 音声編集は、既存の音声クリップ内の特定の内容を、残りの音響コンテンツを保存しながら、自然言語の指示に従って修正することを目的としている。
拡散モデルの顕著な進歩にもかかわらず、既存のトレーニングベースの編集手法は主に畳み込みU-Netバックボーンにおける局所的誘導バイアスと相互注意相互作用に依存しており、長い範囲のセマンティックアライメントや命令の正確な理解と局所化を妨げている。
対照的に、拡散トランスフォーマーはより強力なグローバルモデリングとマルチモーダル融合を提供するが、既存の編集アーキテクチャは通常MMDiTとDiTブロックの単純なスタックを採用する。
すべてのブロックに連結された音声とテキストトークンに共同注意を適用すると、トークンの長さに関して二次的な複雑さが生じる。
編集性能と効率のバランスをとるために,修正フローマッチングに基づく命令誘導音声編集のためのハイブリッド2段階拡散トランスフォーマアーキテクチャを提案する。
低解像度の段階で粗いセマンティックアライメントを確立するために音声とテキストトークンを共同で注目し、次に、高解像度の段階で編集の詳細を洗練するために、共同アテンションブロックと交差アテンションブロックを交互に切り替える。
この粗大な戦略により、命令誘導音声編集を効率的かつ正確に行うことができる。
実験の結果,提案フレームワークは,音声イベントと複雑な命令を重畳する編集作業において,コンパクトなモデルによる編集効率を大幅に向上させながら,顕著な性能向上を実現していることがわかった。
関連論文リスト
- Reasoning to Align: Implicit Reasoning in Diffusion Transformers for Video Editing [55.211537893248675]
本稿では,2つの補完コンポーネントを中心に構築された暗黙の推論ビデオ編集用DiTフレームワークであるRVEDiTを提案する。
RVEDiTは最先端のベースラインを一貫して上回り、特にローカライズされた編集や構成的な編集において大きな利益を得ている。
論文 参考訳(メタデータ) (2026-05-23T17:22:14Z) - CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing [76.74048814837336]
映画ダビングは、ターゲット映像中の唇の動きと同期しながら、参照音声の音声アイデンティティを保持する音声を合成することを目的としている。
既存の方法は正確なリップシンクを達成できず、持続時間レベルでの明示的なアライメントによって自然性を欠いている。
認知同期拡散変換器(CoSync-DiT)により駆動される新しいフローマッチング型フィルムダビングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-14T05:03:57Z) - AV-Edit: Multimodal Generative Sound Effect Editing via Audio-Visual Semantic Joint Control [10.55114688654566]
AV-Editは、ビデオ内の既存のオーディオトラックのきめ細かい編集を可能にする生成的サウンドエフェクト編集フレームワークである。
提案手法は,マルチモーダル事前学習のためのコントラスト型音声-視覚マスキングオートエンコーダ (CAV-MAE-Edit) を特別に設計した。
実験により,提案したAV-Editは,視覚コンテンツに基づいて高精度な修正を施した高品質なオーディオを生成することが示された。
論文 参考訳(メタデータ) (2025-11-26T07:59:53Z) - RFM-Editing: Rectified Flow Matching for Text-guided Audio Editing [21.479883699581308]
そこで本研究では,音声編集のための効率のよいフロー整合型拡散フレームワークを提案する。
実験の結果,補助的なキャプションやマスクを必要とせず,忠実なセマンティックアライメントを実現することができた。
論文 参考訳(メタデータ) (2025-09-17T14:13:40Z) - Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文 参考訳(メタデータ) (2025-07-28T11:46:35Z) - EditGen: Harnessing Cross-Attention Control for Instruction-Based Auto-Regressive Audio Editing [54.10773655199149]
自動回帰モデルにおける効率的な音声編集のためのクロスアテンション制御の活用について検討する。
画像編集手法に触発されて,横断的・自己認識的メカニズムを通じて編集をガイドするPrompt-to-Promptライクなアプローチを開発した。
論文 参考訳(メタデータ) (2025-07-15T08:44:11Z) - MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation [55.101611012677616]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは,グローバルビデオ編集タスクにおいて顕著な結果を示した。
我々は、オープンドメインビデオ編集のための事前訓練されたT2Iモデル上に構築された、チューニング不要なMAEフレームワークであるMAKIMAを紹介する。
論文 参考訳(メタデータ) (2024-12-28T02:36:51Z) - FluentEditor2: Text-based Speech Editing by Modeling Multi-Scale Acoustic and Prosody Consistency [40.95700389032375]
テキストベースの音声編集(TSE)により、ユーザーは元の録音を変更することなく、対応するテキストを直接修正して音声を編集できる。
現在のTSE技術は、学習中に生成された音声と編集領域における参照の相違を最小限に抑えることに焦点を当てていることが多い。
従来のtextitFluentEditor モデルである textittextbfFluentEditor2 をベースとした新しい流速音声編集手法を提案する。
論文 参考訳(メタデータ) (2024-09-28T10:18:35Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - Prompt-guided Precise Audio Editing with Diffusion Models [36.29823730882074]
PPAEは拡散モデルの汎用モジュールとして機能し、正確な音声編集を可能にする。
拡散モデルの相互アテンションマップを利用して、正確な局所的な編集を容易にし、階層的な局所的なパイプラインを用いてよりスムーズな編集プロセスを実現する。
論文 参考訳(メタデータ) (2024-05-11T07:41:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。