論文の概要: Repurposing a Speech Classifier for Guided Diffusion-Based Speech Generation
- arxiv url: http://arxiv.org/abs/2606.20457v1
- Date: Thu, 18 Jun 2026 16:40:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.990179
- Title: Repurposing a Speech Classifier for Guided Diffusion-Based Speech Generation
- Title(参考訳): 誘導拡散に基づく音声生成のための音声分類器の再構築
- Authors: Rostislav Makarov, Timo Gerkmann,
- Abstract要約: 拡散生成のバックボーンとして音声分類器を再利用する。
中間表現を再利用し、このサブネットワークのみをDenoising Score Matchingの目的の下で訓練する軽量サブネットワークが作成される。
本研究は,事前学習した分類器を条件生成のために再利用できることを示し,識別モデルと条件付き音声の間に魅力的なブリッジを提供する。
- 参考スコア(独自算出の注目度): 28.807557840756402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classifier guidance is a way to control diffusion generation by using a noise-conditioned classifier to steer the sampling process toward a target class. One drawback of classifier guidance is that it requires two separately trained models: a classifier and a diffusion model. We therefore study a more compact alternative in which a conventionally trained speech classifier is repurposed as the backbone for diffusion generation. Starting from a frozen noise-conditioned classifier in log-Mel space, we attach a lightweight subnetwork that reuses intermediate classifier representations and train only this subnetwork under a Denoising Score Matching objective. Our work shows that a pretrained classifier can be repurposed for conditional generation, providing an appealing bridge between discriminative modeling and conditional speech synthesis resulting in high speech quality within a single-backbone model, with reduced memory footprint and computational cost.
- Abstract(参考訳): 分類器誘導は、雑音条件付き分類器を用いて、サンプリングプロセスを目標クラスに向けて操る拡散生成を制御する方法である。
分類器指導の欠点の1つは、分類器と拡散モデルという2つの個別に訓練されたモデルが必要であることである。
そこで本研究では,従来の音声分類器を拡散生成のバックボーンとして再利用する,よりコンパクトな代替手法について検討する。
ログメル空間における凍結雑音条件付き分類器から始まり、中間分類器表現を再利用する軽量サブネットワークを付加し、このサブネットワークのみをDenoising Score Matchingの目的の下で訓練する。
我々の研究は、事前学習した分類器を条件生成のために再利用できることを示し、識別モデルと条件付き音声合成の間に魅力的なブリッジを提供し、単一のバックボーンモデル内で高い音声品質を実現し、メモリフットプリントと計算コストを削減できることを示した。
関連論文リスト
- Joint Enhancement and Classification using Coupled Diffusion Models of Signals and Logits [45.99435851580745]
2つの相互作用拡散モデルを統合する汎用的なドメインに依存しないフレームワークを提案する。
入力とロジットの結合分布を効果的にモデル化する3つの戦略を導入する。
提案手法は従来の逐次拡張ベースラインを超越し,多様な雑音条件下での分類精度の堅牢かつ柔軟な改善を実現する。
論文 参考訳(メタデータ) (2026-02-17T07:25:41Z) - Studying Classifier(-Free) Guidance From a Classifier-Centric Perspective [100.54185280153753]
分類器なし誘導と分類器なし誘導の両方が,微分拡散軌道を決定境界から遠ざけることによって条件付き生成を実現することがわかった。
本研究では,フローマッチングをベースとした汎用的な後処理ステップを提案し,事前学習した復調拡散モデルに対する学習分布と実データ分布とのギャップを小さくする。
論文 参考訳(メタデータ) (2025-03-13T17:59:59Z) - DiffAug: A Diffuse-and-Denoise Augmentation for Training Robust Classifiers [6.131022957085439]
DiffAugは、画像分類器を訓練するためのシンプルで効率的な拡散に基づく拡張手法である。
与えられた例にDiffAugを適用すると、1つの前方拡散ステップと1つの逆拡散ステップからなる。
論文 参考訳(メタデータ) (2023-06-15T15:19:25Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Classifier-Free Diffusion Guidance [17.355749359987648]
誘導法は条件付き拡散モデルにおけるモードカバレッジとサンプル忠実度をトレードオフする手法として最近導入された。
このような分類器を使わずに、純粋な生成モデルによってガイダンスを実際に実行できることが示される。
結果の条件と非条件のスコアの見積もりを組み合わせることで、サンプルの品質と多様性のトレードオフを達成します。
論文 参考訳(メタデータ) (2022-07-26T01:42:07Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Three-class Overlapped Speech Detection using a Convolutional Recurrent
Neural Network [32.59704287230343]
提案手法は,非音声,単一話者発話,重複発話の3つのクラスに分類できる。
畳み込み型リカレントニューラルネットワークアーキテクチャは、畳み込み層がローカルパターンをモデル化する能力と、シーケンシャルな情報をモデル化するリカレント層の能力の両方の恩恵を受けるために研究されている。
提案した重畳重畳音声検出モデルは,DIHARD II評価セット上での精度0.6648,リコール0.3222で最先端の性能を確立する。
論文 参考訳(メタデータ) (2021-04-07T03:01:34Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。