論文の概要: Robust Spoofed Speech Detection via Temporal Pyramid Modeling
- arxiv url: http://arxiv.org/abs/2606.16837v1
- Date: Mon, 15 Jun 2026 15:16:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.660883
- Title: Robust Spoofed Speech Detection via Temporal Pyramid Modeling
- Title(参考訳): 時間ピラミッドモデリングによるロバスト音声検出
- Authors: Mahtab Masoudi Nezhad, Nima Karimian,
- Abstract要約: 発声音声検出は、現実的な合成、音声変換、リプレイアタックによってますます困難になっている。
本稿では,異なる受容場を持つ並列時間的畳み込みを利用してマルチスケールのスプーフィングキューを捕捉する時間的ピラミッドアダプタを提案する。
また,Mel,Sinc,Temporal Pyramidなどのフロントエンドアダプタと組み合わせた自己教師型XLS-R表現と,マルチスケール時間モデルのための時間ピラミッド設計を統合した。
- 参考スコア(独自算出の注目度): 2.1485350418225244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoofed speech detection is increasingly challenged by realistic synthesis, voice conversion, and replay attacks, with cross-dataset generalization remaining a major limitation. This work we propose a Temporal Pyramid Adapter that utilize parallel temporal convolutions with varying receptive fields to capture multi-scale spoofing cues, ranging from local artifacts to global prosodic irregularities. We also integrated self-supervised XLS-R representations combined with front-end adapters, including Mel, Sinc, and a Temporal Pyramid design for multi-scale temporal modeling. The proposed model is evaluated cross multiple benchmark including ASVspoof 2017, ASVspoof 2021 (DF/LA), PartialSpoof, DiffSSD, and multilingual HQ-MPSD datasets. Experimental results demonstrate that Temporal Pyramid model obtained AUC of 99.24% and a EER of 3.87% on the PartialSpoof database, which is significantly outperforming the base model and several SOTA baseline such as LCNN-BLSTM (9.87% EER) and TRACE (8.08% EER). Additionally, multilingual evaluations confirm that while spoofing artifact are independent from language. While self-supervised representations improve robustness, performance degrades under domain and language shifts, highlighting the need for better adaptation and calibration strategies.
- Abstract(参考訳): スポフ付き音声検出は、現実的な合成、音声変換、リプレイアタックによってますます挑戦され、データセット間の一般化は大きな制限を残している。
本研究では, 局所的な人工物からグローバルな韻律的不規則まで, 様々な受容場を持つ並列時間的畳み込みを利用して, マルチスケールのスプーフィングキューを捕捉する時間的ピラミッド適応器を提案する。
また,Mel,Sinc,Temporal Pyramidなどのフロントエンドアダプタと組み合わせた自己教師型XLS-R表現と,マルチスケール時間モデルのための時間ピラミッド設計を統合した。
ASVspoof 2017 ASVspoof 2021 (DF/LA)、PartialSpoof、DiffSSD、多言語HQ-MPSDデータセットなどを含む複数のベンチマークを評価する。
実験結果から, LCNN-BLSTM (9.87% EER) やTRACE (8.08% EER) などのSOTAベースラインのベースモデルおよびSOTAベースラインを著しく上回り, AUC 99.24%, EER がpartialSpoofデータベースで3.87%であった。
さらに、多言語評価では、偽造品は言語とは独立であることを確認した。
自己監督型表現は堅牢性を改善するが、ドメインや言語のシフトによってパフォーマンスが低下し、適応性やキャリブレーション戦略の改善の必要性が強調される。
関連論文リスト
- DAStatFormer: A Hybrid Multibranch Transformer with Statistical Feature Integration for DAS-Based Pattern Recognitions [0.19573380763700718]
DAStatFormerは、コンパクトなマルチドメイン統計特徴とGated Transformer Networksを組み合わせたハイブリッドマルチブランチトランスフォーマーである。
99.4%の精度とほぼ完璧な実世界のパフォーマンスを実現している。
これらの結果は、分散リアルタイムDASベースのモニタリングに適していることを示す。
論文 参考訳(メタデータ) (2026-05-22T13:58:37Z) - Adapting Where It Matters: Depth-Aware Adaptation for Efficient Multilingual Speech Recognition in Low-Resource Languages [11.808922632545874]
我々は多言語自動音声認識モデルを分析し、U字型適応パターンを明らかにする。
本稿では,各レイヤの役割に応じて適応能力を割り当てる,深層対応モデル適応フレームワークDAMAを提案する。
Damaは、最先端の精度とトレーニング可能なパラメータを80%削減し、極端なデータ不足下で29%のエラー削減を実現し、ベースラインよりもメモリ、トレーニング時間、計算効率を大幅に改善する。
論文 参考訳(メタデータ) (2026-02-01T04:18:31Z) - A multimodal Transformer for InSAR-based ground deformation forecasting with cross-site generalization across Europe [3.3295066998131637]
EGMS時系列からの変位マップの1段階, 固定区間次エポシック・コンポーティングのためのパッチベースの変換器を提案する。
このモデルは、トレーニングウィンドウからのみリークセーフな方法で計算された静的運動指標(平均速度、加速度、季節振幅)とともに、最近の変位スナップショットを取り込みます。
一方、STGCNはCNN-LSTM、CNN-LSTM+Attn、Multimodal STGCNよりも明らかに優れている。
論文 参考訳(メタデータ) (2025-12-30T00:07:36Z) - Turk-LettuceDetect: A Hallucination Detection Models for Turkish RAG Applications [0.0]
本稿では,トルコのRAGアプリケーションに特化して設計された幻覚検出モデルの最初のスイートであるTurk-LettuceDetectを紹介する。
これらのモデルは、質問応答、データ・トゥ・テキスト生成、要約タスクを含む17,790のインスタンスを含むRAGTruthベンチマークデータセットの機械翻訳バージョンでトレーニングされた。
実験の結果,ModernBERTをベースとしたモデルでは,F1スコアの0.7266が完全なテストセットで達成され,特に構造化タスクにおいて高い性能が得られた。
論文 参考訳(メタデータ) (2025-09-22T12:14:11Z) - PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - TSLANet: Rethinking Transformers for Time Series Representation Learning [19.795353886621715]
時系列データは、その固有の長短の依存関係によって特徴づけられる。
本稿では,時系列タスクの普遍的畳み込みモデルとして,新しい時系列軽量ネットワーク(TSLANet)を導入する。
我々の実験では、TSLANetは分類、予測、異常検出にまたがる様々なタスクにおいて最先端のモデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-04-12T13:41:29Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。