論文の概要: DirectAudioEdit: Inversion-Free Text-Guided Audio Editing via Diffusion Prediction Contrast
- arxiv url: http://arxiv.org/abs/2606.07356v1
- Date: Fri, 05 Jun 2026 15:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.802682
- Title: DirectAudioEdit: Inversion-Free Text-Guided Audio Editing via Diffusion Prediction Contrast
- Title(参考訳): DirectAudioEdit:拡散予測コントラストによるインバージョンフリーテキストガイドオーディオ編集
- Authors: Zhengkun Ge, Xiaoqian Liu, Haoran Zhang, Yuan Ge, Junxiang Zhang, Zhengtao Yu, Jingbo Zhu, Tong Xiao,
- Abstract要約: そこで我々はDirectAudioEditを紹介した。これは、オーディオ編集のためのトレーニングフリーでインバージョンフリーな方法を開発するための最初の試みである。
実験の結果、DirectAudioEdit は DDPM のインバージョンと比較して、マクロ平均 FAD と KL を 15.9% と 15.8% 削減し、最大 64.5% の高速化を実現している。
- 参考スコア(独自算出の注目度): 48.769614659190445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided audio editing aims to modify the language-specified acoustic content while preserving edit-irrelevant source components. Existing training-free methods typically rely on inversion-based editing. While inversion-free editing is appealing as it decreases computational overhead and reconstruction errors, it remains largely unexplored for audio editing. The key challenge is to construct a source-to-target editing path through diffusion denoising dynamics. In this paper, we introduce DirectAudioEdit, the first attempt to develop a training-free and inversion-free method for audio editing. Experiments on music and event-level benchmarks across two backbones show that DirectAudioEdit reduces macro-averaged FAD and KL by 15.9% and 15.8% compared with DDPM inversion, while achieving up to 64.5% editing speedup.
- Abstract(参考訳): テキスト誘導音声編集は、編集不要なソースコンポーネントを保持しながら、言語仕様の音響コンテンツを変更することを目的としている。
既存のトレーニングフリーの手法は、典型的には反転ベースの編集に依存している。
インバージョンフリー編集は、計算オーバーヘッドと再構成エラーを減少させるため魅力的であるが、オーディオ編集には未検討である。
鍵となる課題は、拡散デノジングダイナミックスを通じて、ソースからターゲットへの編集パスを構築することである。
本稿では、オーディオ編集のためのトレーニング不要かつ反転不要な手法を開発するための最初の試みであるDirectAudioEditを紹介する。
2つのバックボーンにわたる音楽とイベントレベルのベンチマークの実験では、DirectAudioEditは、DDPMのインバージョンと比較して、マクロ平均FADとKLを15.9%と15.8%削減し、最大64.5%の編集スピードアップを達成した。
関連論文リスト
- ProEdit: Inversion-based Editing From Prompts Done Right [63.554692704101]
インバージョンベースのビジュアル編集は、ユーザ指示に基づいて画像やビデオを編集するための効果的でトレーニングのない方法を提供する。
既存の方法は、通常、編集一貫性を維持するためにサンプリングプロセス中にソースイメージ情報を注入する。
注意点と潜伏点の両方においてこの問題に対処するProEditを提案する。
論文 参考訳(メタデータ) (2025-12-26T18:59:14Z) - Schrodinger Audio-Visual Editor: Object-Level Audiovisual Removal [90.14887235360611]
SAVEBenchは、テキストとマスク条件を備えたペアオーディオヴィジュアルデータセットで、オブジェクト指向のソース・ツー・ターゲット学習を可能にする。
SAVEにはSchrodinger Bridgeが組み込まれており、ソースからターゲットのオーディオヴィジュアルミックスへのダイレクトトランスポートを学習する。
評価の結果,提案したSAVEモデルは,残したコンテンツを保存しながら,音声・視覚コンテンツ中の対象オブジェクトを除去できることがわかった。
論文 参考訳(メタデータ) (2025-12-14T23:19:15Z) - In-Context Learning with Unpaired Clips for Instruction-based Video Editing [51.943707933717185]
我々は、命令ベースのビデオ編集のための低コストの事前学習戦略を導入する。
本フレームワークは,まず約100万本のビデオクリップを事前学習し,基本的な編集概念を学習する。
本手法は命令アライメントと視覚的忠実度の両方において既存の命令ベースビデオ編集手法を超越する。
論文 参考訳(メタデータ) (2025-10-16T13:02:11Z) - Object-AVEdit: An Object-level Audio-Visual Editing Model [79.62095842136115]
インバージョン再生パラダイムに基づくオブジェクトレベルの音声視覚編集を実現するtextbfObject-AVEditを提案する。
編集中のオブジェクトレベルの制御性を実現するために,単語から音声へのオブジェクトの一致した音声生成モデルを開発した。
より優れた構造情報保存とオブジェクトレベルの編集効果を実現するため,本アルゴリズムでは,倒立再生に最適化された編集アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-09-27T18:12:13Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Prompt-guided Precise Audio Editing with Diffusion Models [36.29823730882074]
PPAEは拡散モデルの汎用モジュールとして機能し、正確な音声編集を可能にする。
拡散モデルの相互アテンションマップを利用して、正確な局所的な編集を容易にし、階層的な局所的なパイプラインを用いてよりスムーズな編集プロセスを実現する。
論文 参考訳(メタデータ) (2024-05-11T07:41:27Z) - Audio Editing with Non-Rigid Text Prompts [24.008609489049206]
提案した編集パイプラインは,入力音声に忠実な音声編集を作成可能であることを示す。
追加、スタイル転送、インペイントを行うテキストプロンプトを探索する。
論文 参考訳(メタデータ) (2023-10-19T16:09:44Z) - AUDIT: Audio Editing by Following Instructions with Latent Diffusion
Models [40.13710449689338]
AUDITは遅延拡散モデルに基づく命令誘導音声編集モデルである。
複数のオーディオ編集タスクに対する客観的および主観的メトリクスの両面で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-04-03T09:15:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。