Fugu-MT 論文翻訳(概要): Backdoor Attacks on Speech Emotion Recognition via TTS-Generated Poisoning

論文の概要: Backdoor Attacks on Speech Emotion Recognition via TTS-Generated Poisoning

arxiv url: http://arxiv.org/abs/2606.21052v1
Date: Fri, 19 Jun 2026 02:36:11 GMT
ステータス: 情報取得中
システム内更新日: 2026-06-23 11:18:49.225558
Title: Backdoor Attacks on Speech Emotion Recognition via TTS-Generated Poisoning
Title（参考訳）: TTS-Generated Poisoningによる音声感情認識のバックドアアタック
Authors: Yongbin Huang, Xihao Xie, Jia Zhang,
Abstract要約: 音声感情認識(SER)システムは、ますます自己教師付き音響表現を活用している。本報告では,SERに対する毒素によるバックドア攻撃に関する最初の系統的研究について述べる。我々は、自然音声と合成音声の両方に知覚不能に埋め込まれるステルスで低エネルギーの音響トリガーを導入する。
参考スコア（独自算出の注目度）: 4.436455150491443
License:
Abstract: Speech Emotion Recognition (SER) systems increasingly leverage self-supervised acoustic representations, yet their vulnerability to training-time attacks remains largely underexplored. This paper presents the first systematic study of poisoning-based backdoor attacks on SER, with a focus on threats enabled by text-to-speech (TTS) generated audio. We introduce a stealthy, low-energy acoustic trigger that can be embedded imperceptibly into both natural and synthetic speech, enabling scalable and consistent poisoning. Our experiments demonstrate that SER models can be reliably compromised with high attack success rates under low poisoning ratios, while maintaining near-clean performance on benign inputs. We further show that backdoor patterns exhibit strong cross-model transferability and that self-supervised representations are particularly susceptible to learning these triggers. These findings reveal that TTS technology dramatically lowers the barrier to effective backdoor attacks, exposing critical vulnerabilities in modern SER pipelines and motivating the urgent need for dedicated defenses.
Abstract（参考訳）: 音声感情認識(SER)システムは、自己教師付き音響表現をますます活用するが、訓練時の攻撃に対するその脆弱性は、ほとんど探索されていない。本稿では,テキスト・トゥ・音声(TTS)が生成した音声による脅威に焦点をあて,SERに対する中毒ベースのバックドア攻撃に関する最初の体系的研究について述べる。我々は、自然音声と合成音声の両方に知覚不能に埋め込むことができるステルスで低エネルギーな音響トリガーを導入し、スケーラブルで一貫した中毒を可能にした。実験により,SERモデルは高い攻撃成功率で高い毒性率で確実に損なわれつつ,良性入力に対するほぼクリーンな性能を維持しつつも,高い攻撃成功率を達成可能であることが示された。さらに、バックドアパターンは強力なクロスモデル転送可能性を示し、自己教師型表現はこれらのトリガの学習に特に影響を受けやすいことを示す。これらの結果は、TS技術が効果的なバックドア攻撃の障壁を劇的に減らし、現代のSERパイプラインに重大な脆弱性を露呈し、専用防衛の緊急な必要性を動機付けていることを示している。

関連論文リスト

Decoding Deception: Understanding Automatic Speech Recognition Vulnerabilities in Evasion and Poisoning Attacks [0.0]
本稿では,コスト効率のよいホワイトボックス攻撃と,自動音声認識システムに対する非伝達性ブラックボックス攻撃について検討する。本稿では, 摂動攻撃が最先端モデルの性能を低下させ, 音声信号の誤解釈につながることを示す。
論文参考訳（メタデータ） (2025-09-26T08:42:59Z)
Mitigating Backdoor Triggered and Targeted Data Poisoning Attacks in Voice Authentication Systems [4.856070170902535]
本稿では,BTAとTDPAの両方を効果的に扱う統一防衛フレームワークを提案する。筆者らのフレームワークは,ほぼリアルタイムにピッチアップとバックドアアタックを隠蔽する周波数集中検出機構を統合している。我々の枠組みはTDPAの認識において、攻撃成功率を最大5～15%まで低下させ、リコールレートを最大9～5%まで維持する。
論文参考訳（メタデータ） (2025-05-06T11:52:12Z)
Can DeepFake Speech be Reliably Detected? [17.10792531439146]
この研究は、最先端のオープンソース音声検出装置に対する能動的悪意のある攻撃に関する最初の体系的研究である。その結果、敵の脅威が進行する中で、より堅牢な検出方法が緊急に必要であることが明らかとなった。
論文参考訳（メタデータ） (2024-10-09T06:13:48Z)
Rethinking the Vulnerabilities of Face Recognition Systems:From a Practical Perspective [53.24281798458074]
顔認識システム(FRS)は、監視やユーザー認証を含む重要なアプリケーションにますます統合されている。最近の研究によると、FRSの脆弱性は敵(例えば、敵パッチ攻撃)やバックドア攻撃(例えば、データ中毒の訓練)であることが明らかになっている。
論文参考訳（メタデータ） (2024-05-21T13:34:23Z)
STAA-Net: A Sparse and Transferable Adversarial Attack for Speech Emotion Recognition [36.73727306933382]
本稿では,SERモデルを騙すために,スパースおよびトランスファー可能な逆数例を生成するジェネレータベースの攻撃手法を提案する。我々は、広く使われている2つのSERデータセット、DEMoS(DemoS)とIEMOCAP(Interactive Emotional Dyadic Motion CAPture)について、本手法の評価を行った。
論文参考訳（メタデータ） (2024-02-02T08:46:57Z)
Pre-trained Trojan Attacks for Visual Recognition [106.13792185398863]
PVM(Pre-trained Vision Model)は、下流タスクを微調整する際、例外的なパフォーマンスのため、主要なコンポーネントとなっている。本稿では,PVMにバックドアを埋め込んだトロイの木馬攻撃を提案する。バックドア攻撃の成功において、クロスタスクアクティベーションとショートカット接続がもたらす課題を強調します。
論文参考訳（メタデータ） (2023-12-23T05:51:40Z)
FlowMur: A Stealthy and Practical Audio Backdoor Attack with Limited Knowledge [13.43804949744336]
FlowMurはステルスで実用的なオーディオバックドア攻撃で、限られた知識で起動できる。 2つのデータセットで実施された実験は、FlowMurがデジタルと物理の両方で高い攻撃性能を達成することを示した。
論文参考訳（メタデータ） (2023-12-15T10:26:18Z)
BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文参考訳（メタデータ） (2023-11-20T02:21:49Z)
Adversarial vs behavioural-based defensive AI with joint, continual and active learning: automated evaluation of robustness to deception, poisoning and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文参考訳（メタデータ） (2020-01-13T13:54:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。