論文の概要: What Do Deepfake Speech Detectors Actually Hear?
- arxiv url: http://arxiv.org/abs/2606.10912v1
- Date: Tue, 09 Jun 2026 14:21:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.546991
- Title: What Do Deepfake Speech Detectors Actually Hear?
- Title(参考訳): ディープフェイクの音声検知器ってどんな音が聞こえるの?
- Authors: Vojtěch Staněk, Veronika Jirmusová, Anton Firc, Kamil Malinka, Jakub Reš, Martin Perešíni,
- Abstract要約: ディープフェイク音声検出装置は、なぜオーディオサンプルがフラグ付けされたのか、証拠がどこにあるのか、何の手がかりが決定を導くのかを説明せずに、単一のスコアを出力することが多い。
本稿では,時間とともに決定証拠をローカライズするために,時間順の自己教師付き表現に積分勾配を用いた音声ネイティブな説明可能性パイプラインを提案する。
提案手法は, ASVspoof 5上の3つのWavLM検出器(AASIST, CA-MHFA, SLS)に適用し, 最も重要な手がかりを意味づけるために, 最大属性領域を手動で注釈付けする。
- 参考スコア(独自算出の注目度): 0.16419687521433918
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deepfake speech detectors often output a single score without explaining why an audio sample is flagged, where in the signal the evidence lies, or what cues drive the decision. We propose an audio-native explainability pipeline using Integrated Gradients on time-aligned self-supervised representations to localize decision evidence over time. We apply the proposed method to three WavLM-based detectors (AASIST, CA-MHFA, SLS) on ASVspoof 5 and manually annotate the highest-attribution regions to provide a semantic meaning of the most important cues. Despite similar performance, the detectors rely on different cues: AASIST emphasizes non-speech/environment cues, CA-MHFA focuses on localized phoneme artifacts, and SLS relies on word boundaries and spectral integrity. We move beyond speculative reasoning and validate our findings by causal masking of the primary detector cues. Observed performance degradation further supports the explained detector semantics.
- Abstract(参考訳): ディープフェイク音声検出装置は、なぜオーディオサンプルがフラグ付けされたのか、証拠がどこにあるのか、何の手がかりが決定を導くのかを説明せずに、単一のスコアを出力することが多い。
本稿では,時間とともに決定証拠をローカライズするために,時間順の自己教師付き表現に積分勾配を用いた音声ネイティブな説明可能性パイプラインを提案する。
提案手法は, ASVspoof 5上の3つのWavLM検出器(AASIST, CA-MHFA, SLS)に適用し, 最も重要な手がかりを意味づけるために, 最大属性領域を手動で注釈付けする。
AASISTは非音声/環境の手がかりを強調し、CA-MHFAは音素の局所化に重点を置いており、SLSは単語境界とスペクトル整合性に依存している。
我々は、投機的推論を超えて、主検出器の因果マスキングによる結果の検証を行う。
観測された性能劣化は、説明された検出器のセマンティクスをさらにサポートする。
関連論文リスト
- Detecting Hallucinations in SpeechLLMs at Inference Time Using Attention Maps [1.8825446478246406]
音声大言語モデル(SpeechLLMs)における幻覚は重大なリスクを伴うが、既存の検出方法は、コストがかかるか現実的でない金標準出力に依存している。
本研究は,幻覚に関連する病的注意パターンを捉えるために,AuDIORATIO,AUDIOCONSISTENCY,AUDIOENTROPY,TEXTENTROPYの4つの注意指標について検討した。
自動音声認識と音声からテキストへの翻訳作業は,不確実性に基づくベースラインや,それ以前のアテンションに基づくベースラインよりも優れていた。
論文 参考訳(メタデータ) (2026-04-21T15:18:10Z) - SNAP: Speaker Nulling for Artifact Projection in Speech Deepfake Detection [51.096014381455454]
自己教師付き学習ベースの音声エンコーダは、目に見えない話者を一般化するのに苦労する。
話者の絡み合いは、検出者が人工物に関連する手がかりではなく、話者固有の相関を悪用する原因となる。
我々は、この依存を軽減するために、SNAPという話者無効化フレームワークを紹介した。
論文 参考訳(メタデータ) (2026-03-21T07:05:30Z) - Causal Tracing of Audio-Text Fusion in Large Audio Language Models [48.849764961130795]
我々は、音声理解におけるLALMの内部情報の流れを調べるために因果追跡を適用した。
DeSTA,Qwen,Voxtralを横断的に層状およびトークン的に解析することにより,個々の隠れ状態の因果効果を評価する。
論文 参考訳(メタデータ) (2026-03-14T05:40:59Z) - Towards Explicit Acoustic Evidence Perception in Audio LLMs for Speech Deepfake Detection [23.695892348165497]
音声ディープフェイク検出(SDD)は、与えられた音声信号が本物か合成的に生成されたかを特定することに焦点を当てる。
既存の音声大言語モデル(LLM)ベースの手法は、しばしば意味論的に相関した手がかりに偏っている。
聴覚知覚強調音声大言語モデル(SDD-APALLM)を用いたSDDについて紹介する。
論文 参考訳(メタデータ) (2026-01-30T15:16:43Z) - Toward Faithful Retrieval-Augmented Generation with Sparse Autoencoders [39.5490415037017]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)の事実性を改善する。
既存のRAGの幻覚検出法は、しばしば大規模な検出器の訓練に頼っている。
RAGLensは、RAG出力を正確にフラグする軽量幻覚検出器である。
論文 参考訳(メタデータ) (2025-12-09T18:33:22Z) - Sparse deepfake detection promotes better disentanglement [4.901409400999413]
スパースディープフェイク検出は,ASVSpoof5テストセット上でのEERの23.36%で検出性能が95%向上することを示した。
次に,これらの表現が相互情報に基づく完全性およびモジュラリティの指標を用いて,より不整合性を示すことを示す。
論文 参考訳(メタデータ) (2025-10-07T09:03:39Z) - Generalizable Speech Deepfake Detection via Information Bottleneck Enhanced Adversarial Alignment [48.73836179661632]
信頼誘導対向アライメントは、識別的手がかりを消去することなく攻撃固有のアーティファクトを適応的に抑制する。
IB-CAANは、多くのベンチマークにおいて、ベースラインと最先端のパフォーマンスを一貫して上回る。
論文 参考訳(メタデータ) (2025-09-28T03:48:49Z) - Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。
提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文 参考訳(メタデータ) (2022-11-15T18:44:28Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。