論文の概要: FlowFake: Liquid Networks for Audio Deepfake Detection
- arxiv url: http://arxiv.org/abs/2606.19579v1
- Date: Wed, 17 Jun 2026 20:32:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.525362
- Title: FlowFake: Liquid Networks for Audio Deepfake Detection
- Title(参考訳): FlowFake:オーディオディープフェイク検出のための液体ネットワーク
- Authors: Shivaay Dhondiyal, Divyansh Sharma, Dinesh Kumar Vishwakarma,
- Abstract要約: FlowFake は、スペクトル (10ms) と韻律 (2s) のキューを同時に解決する、ニューロンごとの適応時間定数を持つ、LTC (Liquid Time-Constant) アーキテクチャである。
わずか34Kパラメータで、FlowFakeは正式なBIBO安定性とO(dt4)統合エラーを達成する。
- 参考スコア(独自算出の注目度): 22.027087796412605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio deepfakes generated by neural text-to-speech and voice-cloning systems threaten speaker verification and public discourse at scale. The core challenge is cross-dataset generalization: detectors trained on one synthesis pipeline collapse on unseen forgeries. We argue that this failure is primarily because of structural synthetic speech artifacts which are multi-timescale trajectory anomalies. Though every existing detector aggregates a fixed-window frame statistics, this misaligns the architecture with the signal. We propose FlowFake, a Liquid Time-Constant (LTC) architecture whose hidden state evolves via a learned ODE, with per-neuron adaptive time constants simultaneously resolving spectral (10ms) and prosodic (2s) cues. At only 34K parameters FlowFake achieves formal BIBO stability and O(dt^4) integration error. On a four-dataset cross domain benchmark (ASVspoof2019-LA, FakeOrReal, InTheWild, MLAAD), FlowFake reaches 75.29% on ASVspoof2019 trained only on FakeOrReal and 79.97% trained only on MLAAD. It outperforms RawGAT-ST and Whisper-DF on every evaluated pair and matching SSL Wav2vec2 (300x larger) at 0.01% of its parameter count. The source code is available on : https://github.com/GhostRider2023/FlowFake
- Abstract(参考訳): ニューラルテキスト音声合成システムと音声閉鎖システムによって生成されたオーディオディープフェイクは、話者検証と大規模公開会話を脅かす。
中心となる課題は、クロスデータセットの一般化である。
この故障は、主に多時間軌跡異常である構造的合成音声アーティファクトによるものであると我々は主張する。
既存の検出器はすべて固定窓のフレーム統計を集計するが、これは信号でアーキテクチャを誤認する。
本研究では,Lyquid Time-Constant (LTC) アーキテクチャを提案する。このアーキテクチャは,学習したODEを介して隠れ状態が進化し,スペクトル(10ms) と韻律(2s) を同時に解消する。
わずか34Kパラメータで、FlowFakeは正式なBIBO安定性とO(dt^4)統合エラーを達成する。
4つのデータセットのクロスドメインベンチマーク(ASVspoof2019-LA, FakeOrReal, InTheWild, MLAAD)では、FlowFakeはASVspoof2019で75.29%、FakeOrRealでのみトレーニングされ、MLAADでのみトレーニングされた79.97%に達した。
評価ペアごとにRawGAT-STとWhisper-DFを上回り、パラメータの0.01%でSSL Wav2vec2(300倍)にマッチする。
ソースコードはhttps://github.com/GhostRider2023/FlowFakeで入手できる。
関連論文リスト
- Audio Deepfake Detection with Half-Truth Localisation Using Cross-Attentive Feature Fusion [0.0]
CAFNetは3次分類(リアル、フルフェイク、ハーフトゥルース)を行い、合成された領域の時間的境界を1つの前方通過で遅らせる。
2値検出では、96.76%の精度と3.20%の誤差率(EER)を達成し、500倍以上のパラメータで微調整されたXLS-R 300M(78.31%)とAST 87M(93.03%)を上回っている。
論文 参考訳(メタデータ) (2026-05-28T07:47:22Z) - Self-Supervised Learning via Flow-Guided Neural Operator on Time-Series Data [57.85958428020496]
Flow-Guided Neural Operator (FGNO)は、演算子学習とフローマッチングを組み合わせた新しいフレームワークである。
FGNOは、短時間フーリエ変換を用いて関数空間のマッピングを学習し、異なる時間分解能を統一する。
推論中にノイズのある入力を使用する以前の生成SSL法とは異なり、ノイズのある表現を学習しながら、クリーンな入力を用いて表現抽出を行う。
論文 参考訳(メタデータ) (2026-02-12T18:54:57Z) - End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation [8.11594945165255]
生波形を直接操作するオーディオディープフェイク検出のためのエンドツーエンドのディープラーニングフレームワークを提案する。
我々のモデルであるRawNetLiteは、手作りの事前処理なしでスペクトルと時間の両方の特徴を捉えるために設計された軽量な畳み込み並列アーキテクチャである。
論文 参考訳(メタデータ) (2025-04-29T16:38:23Z) - V2SFlow: Video-to-Speech Generation with Speech Decomposition and Rectified Flow [57.51550409392103]
本稿では,V2SFlowについて紹介する。V2SFlowは,サイレント・トーキング・フェイス・ビデオから直接自然で分かりやすい音声を生成するために設計された,新しいビデオ音声合成(V2S)フレームワークである。
これらの課題に対処するため、音声信号を管理可能な部分空間に分解し、それぞれ異なる音声属性を表現し、視覚入力から直接予測する。
これらの予測属性からコヒーレントでリアルな音声を生成するために,Transformerアーキテクチャ上に構築された正流整合デコーダを用いる。
論文 参考訳(メタデータ) (2024-11-29T05:55:20Z) - Exploring WavLM Back-ends for Speech Spoofing and Deepfake Detection [0.0]
ASVspoof 5 Challenge Track 1: Speech Deepfake Detection - オープンコンディションはスタンドアロンのディープフェイク(bonafide vs spoof)検出タスクで構成される。
我々は、事前訓練されたWavLMをフロントエンドモデルとして利用し、その表現を異なるバックエンド技術でプールする。
本システムでは,0.0937 minDCF,3.42% EER,0.1927 Cllr,0.1375 actDCFを実現している。
論文 参考訳(メタデータ) (2024-09-08T08:54:36Z) - YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection [5.42845980208244]
YOLO-Stutterは、時間的精度でディファレンシを検出する最初のエンドツーエンド手法である。
VCTK-StutterとVCTK-TTSは、繰り返し、ブロック、欠落、置換、延長といった自然な発声障害をシミュレートする。
論文 参考訳(メタデータ) (2024-08-27T11:31:12Z) - SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection [54.74467470358476]
本稿では,シーンフェイク音声検出のためのデータセットSceneFakeを提案する。
操作されたオーディオは、オリジナルオーディオの音響シーンを改ざんするだけで生成される。
本論文では,SceneFakeデータセット上での擬似音声検出ベンチマーク結果について報告する。
論文 参考訳(メタデータ) (2022-11-11T09:05:50Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Audio Deepfake Detection Based on a Combination of F0 Information and
Real Plus Imaginary Spectrogram Features [51.924340387119415]
ASVspoof 2019 LAデータセットの実験結果から,提案手法はオーディオディープフェイク検出に非常に有効であることがわかった。
提案方式は音声深度検出作業に非常に有効であり,ほぼ全てのシステムにまたがる等価誤差率(EER)が0.43%に達する。
論文 参考訳(メタデータ) (2022-08-02T02:46:16Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。