論文の概要: MeCo: One-Step MeanFlow-based Corrector for Multi-Channel Speech Separation
- arxiv url: http://arxiv.org/abs/2606.09677v2
- Date: Tue, 09 Jun 2026 08:08:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 13:21:50.902821
- Title: MeCo: One-Step MeanFlow-based Corrector for Multi-Channel Speech Separation
- Title(参考訳): MeCo:マルチチャネル音声分離のためのワンステップ平均流補正器
- Authors: Dohwan Kim, Jung-Woo Choi,
- Abstract要約: MeanFlowベースの一段階生成補正(MeCo)は条件平均速度場を学習し、識別的推定値をクリーン音声多様体に直接マッピングする。
MeCoは最小の計算オーバーヘッドで最先端(SOTA)性能を達成する。
- 参考スコア(独自算出の注目度): 10.582251259323206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While discriminative models for multi-channel speech separation excel in reference-based metrics, they often exhibit suboptimal human listening quality. To address this, we propose a novel MeanFlow-based one-step generative corrector (MeCo). MeCo learns a conditional average velocity field to map discriminative estimates directly onto the clean speech manifold in a single step. To maximize one-step generation performance, we introduce Data-Space Optimization (DSO). DSO integrates an $\mathbf{x}_r$-loss, which penalizes prediction errors on longer displacement intervals to serve as a generative objective for human listening quality, with an Endpoint SI-SDR loss that directly optimizes terminal signal fidelity. Experiments demonstrate that MeCo achieves state-of-the-art (SOTA) performance with minimal computational overhead, simultaneously achieving superior signal fidelity and human listening quality in both in-domain and out-of-domain scenarios.
- Abstract(参考訳): 多チャンネル音声分離のための識別モデルは基準に基づく指標で優れているが、それらはしばしば人間の聴取品質に最適である。
そこで本研究では,MeanFlowを用いた一段階生成補正(MeCo)を提案する。
MeCoは条件平均速度場を学習し、識別的推定を1ステップでクリーン音声多様体に直接マッピングする。
1ステップ生成性能を最大化するために,データ空間最適化(DSO)を導入する。
DSO には $\mathbf{x}_r$-loss が組み込まれており、長い変位間隔で予測エラーをペナルティ化し、人間の聴取品質の生成目標として機能し、端末信号の忠実度を直接最適化する Endpoint SI-SDR ロスが組み込まれている。
実験により、MeCoは最小の計算オーバーヘッドで最先端のSOTA(State-of-the-art)性能を実現し、ドメイン内およびドメイン外の両方のシナリオにおいて、優れた信号忠実性と人間の聴取品質を同時に達成できることが示されている。
関連論文リスト
- Training-Free Refinement of Flow Matching with Divergence-based Sampling [17.850801452423074]
Flow Divergence Sampler (FDS)は、各ソルバステップの前に中間状態を洗練するトレーニング不要のフレームワークである。
FDSは、このシグナルを利用して、よりあいまいな領域に向けて州を操る。
標準のソルバやオフザシェルフフローバックボーンと互換性のあるプラグイン・アンド・プレイのフレームワークとして、FDSは、さまざまな世代のタスクにおける忠実さを一貫して改善する。
論文 参考訳(メタデータ) (2026-04-06T12:54:58Z) - EuleroDec: A Complex-Valued RVQ-VAE for Efficient and Robust Audio Coding [18.199202388702144]
ほとんどの周波数領域のニューラルコーデックは位相情報を無視するか、2つの独立した実数値チャネルとして符号化し、空間的忠実度を制限する。
これは、収束速度と訓練安定性を犠牲にして、敵対的差別者を導入する必要がある。
本研究では,解析量子化合成パイプライン全体にわたる大域的位相結合を保存する,終端から終端までの複雑なRVQ-VAEオーディオを紹介する。
論文 参考訳(メタデータ) (2026-01-24T16:34:07Z) - Shortcut Flow Matching for Speech Enhancement: Step-Invariant flows via single stage training [20.071957855504206]
拡散に基づく生成モデルは、音声強調における知覚品質の最先端性能を達成した。
音声強調のためのショートカットフローマッチング(SFMSE)を導入する。
その結果,一段階のSFMSE推論により,コンシューマGPU上でのリアルタイム係数(RTF)が0.013となることを示した。
論文 参考訳(メタデータ) (2025-09-25T20:09:05Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z) - Speech Synthesis By Unrolling Diffusion Process using Neural Network Layers [3.2634122554914002]
UDPNetは音声合成における逆拡散過程を高速化する新しいアーキテクチャである。
UDPNetは、品質と効率の両面で最先端の手法を一貫して上回っていることを示す。
これらの結果は、UDPNetをリアルタイム音声合成アプリケーションのための堅牢なソリューションとして位置づけている。
論文 参考訳(メタデータ) (2023-09-18T10:35:27Z) - A Meta-Learning Based Precoder Optimization Framework for Rate-Splitting
Multiple Access [53.191806757701215]
本稿では,トランスミッタ(CSIT)における部分チャネル状態情報を持つRSMAプリコーダを直接最適化するために,メタラーニングに基づく事前コーダ最適化フレームワークを提案する。
コンパクトニューラルネットワークのオーバーフィッティングを利用して、ASR(Average Sum-Rate)表現を最大化することにより、実行時間を最小化しながら、他のトレーニングデータの必要性を効果的に回避する。
数値的な結果から,メタラーニングに基づく解は,中規模シナリオにおける従来のプリコーダ最適化に類似したASR性能を実現し,大規模シナリオにおける準最適低複雑性プリコーダアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-07-17T20:31:41Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。