論文の概要: Dual-Granularity Orthogonal Disentanglement for Generalizable Audio Deepfake Detection
- arxiv url: http://arxiv.org/abs/2606.16532v2
- Date: Mon, 22 Jun 2026 14:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.190642
- Title: Dual-Granularity Orthogonal Disentanglement for Generalizable Audio Deepfake Detection
- Title(参考訳): 広汎化可能なオーディオディープフェイク検出のためのデュアルグラニティ直交歪み
- Authors: Zhuodong Liu, Hugen Lv, Xiangyu Li, Chunhong Yuan,
- Abstract要約: ディープフェイク検出器は、合成アーティファクトではなく、話者同一性の特徴を学ぶため、話者間での一般化に失敗することが多い。
本稿では,2つのレベルにおいて特徴独立を強制する二重粒度直交不整合フレームワークを提案する。
ASVspoof 2019 LA、ASVspoof 2021 DF、In-the-Wildデータセットの実験では、提案手法が1.35%、7.88%、および21.58%のエラー率を達成したことが示されている。
- 参考スコア(独自算出の注目度): 1.6262949941980935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio deepfake detectors often fail to generalize across speakers, as they learn speaker-identity features rather than synthesis artifacts, known as implicit identity leakage. Existing methods address this but incur architectural complexity or training instability. This paper proposes a dual-granularity orthogonal disentanglement framework enforcing feature independence at two levels: sample-level cosine orthogonality captures directional decorrelation, while batch-level cross-covariance regularization eliminates linear correlations across embedding dimensions. A curriculum disentanglement schedule progressively strengthens the orthogonality constraint without auxiliary networks or adversarial dynamics. Experiments on ASVspoof 2019 LA, ASVspoof 2021 DF, and In-the-Wild datasets demonstrate that the proposed method achieves 1.35%, 7.88%, and 21.58% equal error rates (EER), respectively, surpassing gradient reversal disentanglement by 2.60% absolute on cross-dataset transfer.
- Abstract(参考訳): オーディオディープフェイク検出器は、暗黙のアイデンティティリークとして知られる合成アーティファクトではなく、話者同一性の特徴を学ぶため、話者間での一般化に失敗することが多い。
既存のメソッドはこの問題に対処するが、アーキテクチャ上の複雑さやトレーニングの不安定さに対処する。
サンプルレベルのコサイン直交性は方向のデコレーションを捉えるが,バッチレベルの相互共分散正規化は埋め込み次元間の線形相関をなくす。
カリキュラムのアンタングル化スケジュールは、補助ネットワークや対向力学を使わずに、直交制約を徐々に強化する。
ASVspoof 2019 LA, ASVspoof 2021 DF, In-the-Wild データセットの実験では,提案手法がそれぞれ1.35%, 7.88%, 21.58%の誤差率(EER)を達成した。
関連論文リスト
- DiffCrossGait: Trajectory-Level Alignment for 2D-3D Cross-Modal Gait Recognition via Latent Diffusion [5.766298616867406]
クロスモーダルな2D-3D歩行認識は、2Dシルエットと3D LiDARレンジビュー表現のドメインの相違によって阻害される。
DiffCrossGaitを提案する。これは、同一性関連潜伏拡散空間における軌跡レベルのアライメントとして、クロスモーダルマッチングを再構成する。
論文 参考訳(メタデータ) (2026-05-29T04:56:15Z) - Contrast to Detect: Dynamic Graph Contrastive Regularization for Unsupervised Anomaly Detection in Multivariate Time Series [24.192601578775186]
構造進化を抑圧するのではなく,学習信号に変換する,教師なしのフレームワークであるContrastADを提案する。
5つの実世界のベンチマークで、ContrastADは3つのデータセットでF1の平均値とAUCの最高値に達した。
論文 参考訳(メタデータ) (2026-05-22T15:18:53Z) - SEED: Targeted Data Selection by Weighted Independent Set [76.68391670109433]
我々はSEEDと呼ばれる堅牢でスケーラブルなデータ選択パイプラインを開発した。
SEEDは、命令チューニング、視覚的命令チューニング、セマンティックセグメンテーションにおける最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2026-05-15T07:26:54Z) - AdaptOVCD: Training-Free Open-Vocabulary Remote Sensing Change Detection via Adaptive Information Fusion [17.998110109161683]
AdaptOVCDは2次元多層情報融合に基づく学習自由なOpen-Vocabulary Change Detectionアーキテクチャである。
このフレームワークは、データ、特徴、決定レベルを垂直にまたいだ多層情報融合を統合し、ターゲットとする適応設計を水平に取り入れる。
クロスデータセット評価における完全教師付きパフォーマンス上限の84.89%を達成し、優れた一般化能力を示す。
論文 参考訳(メタデータ) (2026-02-06T09:30:23Z) - Refining Decision Boundaries In Anomaly Detection Using Similarity Search Within the Feature Space [3.3202103799131795]
SDA2E(Sparse Dual Adversarial Attention-based AutoEncoder)を導入する。
本稿では,意思決定境界を効率的に洗練するための3つの新しい戦略を統合した類似性誘導型アクティブラーニングフレームワークを提案する。
SDA2Eは、複数のDARPAトランスペアレントコンピューティングシナリオを含む52の不均衡データセットにわたって広範囲に評価し、15の最先端の異常検出手法と比較した。
論文 参考訳(メタデータ) (2026-02-02T23:55:08Z) - Test-time Adaptive Hierarchical Co-enhanced Denoising Network for Reliable Multimodal Classification [55.56234913868664]
マルチモーダルデータを用いた信頼性学習のためのTAHCD(Test-time Adaptive Hierarchical Co-enhanced Denoising Network)を提案する。
提案手法は,最先端の信頼性の高いマルチモーダル学習手法と比較して,優れた分類性能,堅牢性,一般化を実現する。
論文 参考訳(メタデータ) (2026-01-12T03:14:12Z) - SONAR: Spectral-Contrastive Audio Residuals for Generalizable Deepfake Detection [6.042897432654865]
Spectral-cONtrastive Audio Residuals (AR)は、ディープフェイクオーディオ検出器のための周波数誘導フレームワークである。
ARは音声信号を補完表現に切り離す。
ASVspoof 2021およびin-the-wildベンチマークで評価した。
論文 参考訳(メタデータ) (2025-11-26T12:16:38Z) - Integrating Disparity Confidence Estimation into Relative Depth Prior-Guided Unsupervised Stereo Matching [55.784713740698365]
教師なしのステレオマッチングは、コストのかかる不均一なアノテーションから独立して、大きな注目を集めている。
実現可能な解決策は、相対深度マップからステレオマッチングネットワークへの3次元幾何学的知識の転送にある。
本研究は,これらの課題に対処する新しい教師なし学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-02T09:11:05Z) - G-DetKD: Towards General Distillation Framework for Object Detectors via
Contrastive and Semantic-guided Feature Imitation [49.421099172544196]
そこで本研究では,すべてのピラミッドレベルにまたがる特徴ペア間のソフトマッチングを自動的に行う,意味誘導型特徴模倣手法を提案する。
また,異なる特徴領域間の関係で符号化された情報を効果的に捉えるために,コントラスト蒸留を導入する。
本手法は,(1)フレームワークのコンポーネントを別々に使用した場合に,既存の検出KD技術よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2021-08-17T07:44:27Z) - Capturing scattered discriminative information using a deep architecture
in acoustic scene classification [49.86640645460706]
本研究では,識別情報を捕捉し,同時に過度に適合する問題を緩和する様々な手法について検討する。
我々は、ディープニューラルネットワークにおける従来の非線形アクティベーションを置き換えるために、Max Feature Map法を採用する。
2つのデータ拡張方法と2つの深いアーキテクチャモジュールは、システムの過度な適合を減らし、差別的なパワーを維持するためにさらに検討されている。
論文 参考訳(メタデータ) (2020-07-09T08:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。