論文の概要: QC-GAN: A Parameter-Efficient Quaternion Conformer GAN for High-Fidelity Speech Enhancement
- arxiv url: http://arxiv.org/abs/2606.18611v2
- Date: Thu, 18 Jun 2026 04:10:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 13:55:51.804593
- Title: QC-GAN: A Parameter-Efficient Quaternion Conformer GAN for High-Fidelity Speech Enhancement
- Title(参考訳): QC-GAN:高忠実度音声強調のためのパラメータ効率の良い第4次コンバータGAN
- Authors: Shogo Yamauchi, Hideaki Tamori, Makoto Sakai, Yosuke Yamano, Tohru Nitta,
- Abstract要約: Quaternion Conformer GAN (QC-GAN) はパラメータ効率のよい音声強調フレームワークである。
QC-GANは構造的重量共有により大きさと位相を符号化する。
知覚品質を最大化するために、計量学習判別器が用いられた。
- 参考スコア(独自算出の注目度): 0.1817528213772209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a parameter-efficient speech enhancement framework, Quaternion Conformer GAN (QC-GAN), which combines a Quaternion Conformer generator with MetricGAN-based training. The Hamilton product encodes the magnitude and phase via structured weight sharing, reducing the number of layer parameters while preserving their interdependencies. A metric-learning discriminator was employed to maximize perceptual quality by optimizing the approximate perceptual evaluation scores. On the VoiceBank+DEMAND dataset, QC-GAN achieved a Perceptual Evaluation of Speech Quality (PESQ) score of 3.48 with only 0.89M parameters, delivering a performance comparable to state-of-the-art models at less than half their size. A 35K-parameter variant achieved a PESQ score of 3.23, surpassing conventional methods with significantly fewer parameters. Evaluation on the DNS-Challenge 3 dataset further confirmed generalization to real-world conditions.
- Abstract(参考訳): 本稿では,パラメータ効率のよい音声強調フレームワークであるQuantion Conformer GAN(QC-GAN)を提案する。
ハミルトン積は、構造的な重み付けによって大きさと位相を符号化し、相互依存を保ちながら層パラメータの数を減少させる。
およその知覚評価スコアを最適化することにより、知覚品質を最大化するために、計量学習判別器を用いた。
VoiceBank+DEMANDデータセットでは、QC-GANは、音声品質の知覚評価(PESQ)スコアをわずか0.89Mパラメータで3.48で達成し、半分以下のサイズの最先端モデルに匹敵するパフォーマンスを提供する。
35Kパラメータの変種はPSSQスコア3.23を達成し、従来の手法をはるかに少ないパラメータで上回った。
DNS-Challenge 3データセットの評価により、実環境への一般化がさらに確認された。
関連論文リスト
- Noise-Induced Landscape Distortion in QAOA for Constrained Binary Optimization: Empirical Characterization on IBM Quantum Hardware [0.0]
ランドスケープ・スパン・圧縮(LSC)を紹介し,実証的に検証する。
LSCは、騒音がいかにエネルギーの景観を平らにするかを測定し、景観が不毛の台地に向かって崩壊するにつれて1に近づく。
我々は,3つの制約付きQUBOポートフォリオインスタンスに対して,IBMのibm_fezにLSCに基づくノイズ特性を付加したQAOAの適用経験を報告する。
論文 参考訳(メタデータ) (2026-04-21T12:55:50Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - CMGAN: Conformer-Based Metric-GAN for Monaural Speech Enhancement [5.766499647507758]
さらに、時間周波数(TF)領域における音声強調(SE)のためのコンバータベース計量生成逆ネットワーク(CMGAN)モデルを開発した。
以上の結果から,CMGANは3つの主要な音声強調課題において,既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2022-09-22T15:50:21Z) - CMGAN: Conformer-based Metric GAN for Speech Enhancement [6.480967714783858]
本稿では,時間周波数領域に対する共振器を用いた距離生成逆ネットワーク(CMGAN)を提案する。
本生成装置では,2段コンバータブロックを用いて,全等級および複雑なスペクトログラム情報を集約する。
デコーダ段階では、大きさと複素スペクトルの推定を分離し、拡張された音声を再構成するために共同で組み込む。
論文 参考訳(メタデータ) (2022-03-28T23:53:34Z) - Reduced Reference Perceptual Quality Model and Application to Rate
Control for 3D Point Cloud Compression [61.110938359555895]
レート歪み最適化では、ビットレートの制約を受ける再構成品質尺度を最大化してエンコーダ設定を決定する。
本稿では,V-PCC幾何および色量化パラメータを変数とする線形知覚品質モデルを提案する。
400個の圧縮された3D点雲による主観的品質試験の結果,提案モデルが平均評価値とよく相関していることが示唆された。
また、同じ目標ビットレートに対して、提案モデルに基づくレート歪みの最適化は、ポイント・ツー・ポイントの客観的な品質指標による徹底的な探索に基づくレート歪みの最適化よりも高い知覚品質を提供することを示した。
論文 参考訳(メタデータ) (2020-11-25T12:42:02Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。