論文の概要: Speaker-Invariant Representation Learning for Spoofing Detection via Gradient Reversal and A Variational Information Bottleneck
- arxiv url: http://arxiv.org/abs/2606.08678v1
- Date: Sun, 07 Jun 2026 15:31:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.384177
- Title: Speaker-Invariant Representation Learning for Spoofing Detection via Gradient Reversal and A Variational Information Bottleneck
- Title(参考訳): 逐次反転と変分情報ボトルネックによる発声検出のための話者不変表現学習
- Authors: Anh-Tuan Dao, Driss Matrouf, Mickael Rouvier, Nicholas Evans,
- Abstract要約: 話者不変なスプーフィング検出のための教師学習フレームワークを提案する。
我々は、事前学習した話者認識教師を利用して、勾配反転層を介して生徒モデルを指導する。
本モデルでは,MHFAベースラインと比較してEERに対して25.7%の削減を実現している。
- 参考スコア(独自算出の注目度): 7.166778372225167
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Sophisticated generative speech technology can undermined the reliability of voice biometrics. While spoofing detection systems excel when assessed under in-domain conditions, generalisation to out-of-domain settings is often poor. In this paper, we show that such issues could be caused by speaker bias, where models learn individual voice traits rather than markers of manipulation or generation. We propose a teacher-student framework for speaker-invariant spoofing detection that disentangles identity without requiring speaker labels. We leverage a pre-trained speaker recognition teacher to guide a student model via a gradient reversal layer. To control the balance between suppressing cues related to voice identity with the preservation of those related to spoofing detection, we integrate a Variational Information Bottleneck. Evaluations across nine datasets show our model achieves a 25.7% relative reduction to the EER compared to the MHFA baseline.
- Abstract(参考訳): 高度な生成音声技術は、音声バイオメトリックスの信頼性を損なう可能性がある。
ドメイン内条件下での評価では、スプーフィング検出システムが優れているが、ドメイン外の設定への一般化は、しばしば不十分である。
本稿では、モデルが操作や生成のマーカーではなく、個々の音声特性を学習する話者バイアスによって、そのような問題が引き起こされる可能性があることを示す。
本稿では,話者ラベルを必要とせずにアイデンティティをアンタングルする話者不変スプーフィング検出のための教師学生フレームワークを提案する。
我々は、事前学習した話者認識教師を利用して、勾配反転層を介して生徒モデルを指導する。
発声検出に関連する情報と発声検出に関連する情報の保存とのバランスを抑えるために,変分情報ボトルネックを統合した。
9つのデータセットで評価したところ、我々のモデルは、MHFAベースラインと比較してEERに対して25.7%の相対的な減少を達成している。
関連論文リスト
- From Talking to Singing: A New Challenge for Audio-Visual Deepfake Detection [23.76387977850747]
オーディオ・ビジュアル・ディープフェイク検出のための既存の手法は、クロスモーダルな不整合に依存している。
歌唱において、リズム的発声はこの結合を弱め、非自明なドメインシフトを導入する。
歌唱ベンチマークのギャップを埋めるためにリズム認識型生成モデルを用いて歌唱ヘッドディープフェイクデータセットを構築した。
論文 参考訳(メタデータ) (2026-05-27T04:33:39Z) - What Counts as Real? Speech Restoration and Voice Quality Conversion Pose New Challenges to Deepfake Detection [22.710371114925763]
音素修正音声変換と音声復元は, アウト・オブ・ディストリビューションとして扱われることを示す。
マルチクラス問題としてのアンチスプーフィングは、スプーフィング検出を保存しながら、良性シフトに対する堅牢性を向上する。
論文 参考訳(メタデータ) (2026-03-14T17:15:31Z) - Assessing the Impact of Speaker Identity in Speech Spoofing Detection [1.7816843507516946]
スポット検出システムは、通常、複数の話者からの多様な記録を用いて訓練される。
本稿では,スプーフィング検出システムにおける話者情報の影響について検討する。
本稿では,話者不変型マルチタスクフレームワークにおける2つのアプローチを提案する。
論文 参考訳(メタデータ) (2026-02-24T11:45:41Z) - CO-VADA: A Confidence-Oriented Voice Augmentation Debiasing Approach for Fair Speech Emotion Recognition [49.27067541740956]
モデルアーキテクチャの変更や人口統計情報への依存を伴わずにバイアスを緩和する信頼性指向音声強調脱バイアス手法であるCO-VADAを提案する。
CO-VADAはトレーニングデータに存在するバイアスパターンを反映したトレーニングサンプルを特定し、無関係な属性を変更してサンプルを生成するために音声変換を適用する。
我々のフレームワークは様々なSERモデルや音声変換ツールと互換性があり、SERシステムの公平性を改善するためのスケーラブルで実用的なソリューションとなっている。
論文 参考訳(メタデータ) (2025-06-06T13:25:56Z) - Anomaly Detection and Localization for Speech Deepfakes via Feature Pyramid Matching [8.466707742593078]
音声ディープフェイク(英: Speech Deepfakes)は、ターゲット話者の声を模倣できる合成音声信号である。
音声のディープフェイクを検出する既存の方法は教師あり学習に依存している。
本稿では,音声深度検出を異常検出タスクとして再設定する,新しい解釈可能な一クラス検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-23T11:15:22Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。
話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文 参考訳(メタデータ) (2022-04-08T16:27:14Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。