Fugu-MT 論文翻訳(概要): Exploiting Neural Audio Codec Latents for Adversarial Audio Attacks

論文の概要: Exploiting Neural Audio Codec Latents for Adversarial Audio Attacks

arxiv url: http://arxiv.org/abs/2606.20893v1
Date: Thu, 18 Jun 2026 19:40:46 GMT
ステータス: 情報取得中
システム内更新日: 2026-06-23 11:18:41.388619
Title: Exploiting Neural Audio Codec Latents for Adversarial Audio Attacks
Title（参考訳）: 逆音声攻撃のためのニューラルオーディオコーデック潜水器の試作
Authors: Sameek Bhattacharya, Bharath Krishnamurthy, Ajita Rattani,
Abstract要約: 本稿では,ニューラルオーディオの潜時空間で動作するジェネレーティブアタックフレームワークを提案する。条件生成器は、1つのフォワードパスでクラス固有の摂動を合成し、それらを逆波形にデコードする。提案手法は, 攻撃成功率を99%, サブ7msと推定し, 生成ベースラインより優れ, 遅延を24倍に抑えた。
参考スコア（独自算出の注目度）: 2.3067587087700767
License:
Abstract: Deep learning-based audio classification systems, including automatic speaker verification, are vulnerable to adversarial attacks. Realistic real-time threat assessment remains difficult because optimization-based methods, such as projected gradient descent (PGD) and Carlini-Wagner, require costly iterative updates in the high-dimensional waveform domain. Generative attacks allow single-shot synthesis but often introduce perceptible artifacts or depend on computationally intensive architectures, while diffusion and autoregressive approaches incur high inference latency. To address this gap, we propose a generative attack framework operating in the continuous latent space of a neural audio codec. A conditional generator synthesizes class-specific perturbations in a single forward pass and decodes them into adversarial waveforms. Our method achieves targeted attack success rates up to 99% with sub-7 ms inference, outperforming generative baselines while reducing latency by 24x.
Abstract（参考訳）: 自動話者検証を含むディープラーニングに基づく音声分類システムは、敵の攻撃に対して脆弱である。プロジェクテッド勾配降下 (PGD) やカルリーニ=ワグナー (Carliini-Wagner) のような最適化に基づく手法では、高次元波形領域においてコストがかかるため、現実的なリアルタイム脅威評価は依然として困難である。生成的攻撃は単発合成を可能にするが、しばしば知覚可能なアーティファクトや計算集約的なアーキテクチャに依存し、拡散と自己回帰のアプローチは高い推論遅延を引き起こす。このギャップに対処するため,ニューラルオーディオコーデックの連続潜時空間で動作する生成攻撃フレームワークを提案する。条件生成器は、1つのフォワードパスでクラス固有の摂動を合成し、それらを逆波形にデコードする。提案手法は, ターゲット攻撃成功率を99%, サブ7msの推算で達成し, 生成ベースラインより優れ, 遅延を24倍に低減する。

関連論文リスト

Beyond Waveform Robustness: Robust Feature-Vocoder Adversarial Attacks on Automatic Speech Recognition [9.839293944956006]
既存の敵対的攻撃は、直接音声に敵対的ノイズを付加する。クリーン・レファレンス・フィーチャー・ヴォコーダ・アタックは、敵の探索空間を原波形から自己教師付き学習表現へ移動させる。実験により,Whisper-smallのみを公共代理モデルとして最適化した場合,攻撃はブラックボックスASRモデルに効果的に伝達されることが示された。
論文参考訳（メタデータ） (2026-06-04T04:00:48Z)
Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection [22.306688903148046]
大規模な音声言語モデル(LALM)は、音声とテキストを密に統合することでインテリジェントな音声インタラクションをパワーアップする。 textitAudioHijackは,ハイジャックLALMに対して,文脈に依存しない,知覚不能な音声を生成するフレームワークである。 13種類のLALM実験では、6つのカテゴリーで一貫したハイジャックが行われた。
論文参考訳（メタデータ） (2026-04-16T04:22:11Z)
Latent-Mark: An Audio Watermark Robust to Neural Resynthesis [62.09761127079914]
Latent-Markはセマンティック圧縮に耐えられるように設計された最初のゼロビットオーディオ透かしフレームワークである。私たちの重要な洞察は、エンコード-デコードプロセスに対する堅牢性は、不変の潜在空間に透かしを埋め込む必要があるということです。我々の研究は、ますます複雑で多様な生成歪みをまたいで整合性を維持することができる普遍的な透かしフレームワークに、将来の研究をインスピレーションを与えます。
論文参考訳（メタデータ） (2026-03-05T15:51:09Z)
Scores Know Bobs Voice: Speaker Impersonation Attack [8.404098071525473]
本稿では,合成モデルの潜在空間とSRSの識別的特徴空間とを一致させる逆ベース生成攻撃フレームワークを提案する。実験の結果,提案手法はクエリ効率を大幅に向上し,従来の手法に比べて平均10倍少ないクエリで競合攻撃の成功率を達成することができた。
論文参考訳（メタデータ） (2026-03-03T09:20:48Z)
FlowMur: A Stealthy and Practical Audio Backdoor Attack with Limited Knowledge [13.43804949744336]
FlowMurはステルスで実用的なオーディオバックドア攻撃で、限られた知識で起動できる。 2つのデータセットで実施された実験は、FlowMurがデジタルと物理の両方で高い攻撃性能を達成することを示した。
論文参考訳（メタデータ） (2023-12-15T10:26:18Z)
Histogram Layer Time Delay Neural Networks for Passive Sonar Classification [58.720142291102135]
時間遅延ニューラルネットワークとヒストグラム層を組み合わせた新しい手法により,特徴学習の改善と水中音響目標分類を実現する。提案手法はベースラインモデルより優れており,受動的ソナー目標認識のための統計的文脈を取り入れた有効性を示す。
論文参考訳（メタデータ） (2023-07-25T19:47:26Z)
Frequency Domain Adversarial Training for Robust Volumetric Medical Segmentation [111.61781272232646]
医療などの重要な応用において、ディープラーニングモデルの堅牢性を確保することが不可欠である。本稿では,ボリューム医療画像分割モデルに対する3次元周波数領域対逆攻撃について述べる。
論文参考訳（メタデータ） (2023-07-14T10:50:43Z)
Adversarial Attacks with Time-Scale Representations [3.3865605512957457]
リアルタイム・ブラックボックス・ユニバーサル・アタックのための新しいフレームワークを提案する。我々の仮説では、ウェーブレット空間で発生する摂動は、時間領域で実行される摂動よりも、初期の畳み込み層を効果的に破壊する。その結果,ウェーブレットによる摂動は時間ベースの攻撃よりも常に優れていた。
論文参考訳（メタデータ） (2021-07-26T20:58:57Z)
Temporal Sparse Adversarial Attack on Sequence-based Gait Recognition [56.844587127848854]
このような攻撃に対して,最先端の歩行認識モデルが脆弱であることを示す。生成した対向ネットワークに基づくアーキテクチャを用いて、対向的な高品質な歩行シルエットやビデオフレームを意味的に生成する。実験結果から, フレームの1分の1しか攻撃されない場合, 対象モデルの精度は劇的に低下することがわかった。
論文参考訳（メタデータ） (2020-02-22T10:08:42Z)
Temporal-Spatial Neural Filter: Direction Informed End-to-End Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。主な課題は、複雑な音響環境とリアルタイム処理の要件である。複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文参考訳（メタデータ） (2020-01-02T11:12:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。