Fugu-MT 論文翻訳(概要): Hearing the Unspoken: Language Model Priors for Acoustic Adversarial Attacks

論文の概要: Hearing the Unspoken: Language Model Priors for Acoustic Adversarial Attacks

arxiv url: http://arxiv.org/abs/2606.06833v1
Date: Fri, 05 Jun 2026 02:18:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-08 14:33:29.5196
Title: Hearing the Unspoken: Language Model Priors for Acoustic Adversarial Attacks
Title（参考訳）: 言語モデルによるアコースティック・ディバイサルアタックの聴取
Authors: Jiani Xie, Andrew C. Cullen, Paul Montague, Benjamin I. P. Rubinstein,
Abstract要約: ASRシステムは厳密な時間的制約の下で音響入力を処理しなければならない。我々の新たなセマンティック・ガンビット攻撃は、この因果制限を、大規模言語モデルからリアルタイムで派生した予測コンテキストで敵を増強することで破る。実験の結果, コーパスレベルの単語誤り率を35.6%に向上させることができることがわかった。
参考スコア（独自算出の注目度）: 20.292054103939986
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Automatic Speech Recognition (ASR) systems operating in real-time settings must process acoustic input under strict temporal constraints, where transcription decisions are inherently made on incomplete information. This causal constraint serves as an information bottleneck on attackers, significantly limiting attack performance. Our new Semantic Gambit attack breaks this causal limitation by augmenting the adversary with predictive context derived from a Large Language Model in real-time. Our experiments show that this form of augmentation can elevate the corpus-level Word Error Rate to 35.6% -- a three-fold increase over the current state-of-the-art. Ultimately, this work reveals how common, low-latency LLM tooling can be exploited to systematically subvert real-time ASR pipelines.
Abstract（参考訳）: リアルタイム設定で動作する自動音声認識(ASR)システムは、不完全な情報に基づいて本質的に転写決定を行う場合、厳密な時間的制約の下で音響入力を処理しなければならない。この因果制約は攻撃者の情報ボトルネックとなり、攻撃性能を著しく制限する。我々の新たなセマンティック・ガンビット攻撃は、この因果制限を、大規模言語モデルからリアルタイムで派生した予測コンテキストで敵を増強することで破る。実験の結果, コーパスレベルの単語誤り率を35.6%に向上させることができることがわかった。最終的に、この研究は、リアルタイムのASRパイプラインを体系的にサブバートするために、いかに一般的な低レイテンシのLLMツールを利用できるかを明らかにします。

関連論文リスト

Still Between Us? Evaluating and Improving Voice Assistant Robustness to Third-Party Interruptions [52.45054413627452]
TPI-Trainは、話者認識型ハードネガティブで設計された88Kインスタンスのデータセットで、割り込み処理のための音響キュー優先順位付けを強制する。 TPI-Benchは、割り込み処理戦略を厳格に測定するために設計された総合的な評価フレームワークである。
論文参考訳（メタデータ） (2026-04-19T10:03:42Z)
Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection [22.306688903148046]
大規模な音声言語モデル(LALM)は、音声とテキストを密に統合することでインテリジェントな音声インタラクションをパワーアップする。 textitAudioHijackは,ハイジャックLALMに対して,文脈に依存しない,知覚不能な音声を生成するフレームワークである。 13種類のLALM実験では、6つのカテゴリーで一貫したハイジャックが行われた。
論文参考訳（メタデータ） (2026-04-16T04:22:11Z)
A Progressive Training Strategy for Vision-Language Models to Counteract Spatio-Temporal Hallucinations in Embodied Reasoning [49.61652671596548]
「多像幻覚推論」では、前頭と時頭クエリ間の大規模なパフォーマンス低下は、真に理解するのではなく、表面的なショートカットへの依存を示す。これを軽減するために、我々は、チェーンステップへの詳細な推論と決定的な判断に基づく、時間的連鎖構築という新しいデータセットを開発する。実験により,本手法は精度を向上するだけでなく,70%以上から6.53%まで,前向きのパフォーマンスギャップも改善することが示された。
論文参考訳（メタデータ） (2026-04-12T07:48:44Z)
Beyond Prompting: Efficient and Robust Contextual Biasing for Speech LLMs via Logit-Space Integration (LOGIC) [8.474586607625737]
我々は、デコード層で直接動作する効率的で堅牢なフレームワークであるLOGICを紹介する。 LogICは、入力処理からコンテキストインジェクションを分離し、一定時間の複雑さを保証する。 Phi-4-MMモデルを11個の多言語局所で実験したところ、LOGICはEntity WERの平均9%の相対的な減少を達成することが示された。
論文参考訳（メタデータ） (2026-01-21T19:08:45Z)
Exploring Semantic-constrained Adversarial Example with Instruction Uncertainty Reduction [51.50282796099369]
本稿では,多次元命令の不確実性低減フレームワークを開発し,意味論的に制約された逆の例を生成する。言語誘導サンプリングプロセスの予測により、設計したResAdv-DDIMサンプルにより最適化プロセスが安定化される。セマンティック制約付き3次元逆数例の参照フリー生成を初めて実現した。
論文参考訳（メタデータ） (2025-10-27T04:02:52Z)
Temporal-Aware Iterative Speech Model for Dementia Detection [0.0]
音声を用いた認知症自動検出の現在の手法は,静的,時間に依存しない特徴や集約された言語コンテンツに依存している。本稿では,認知症検出のための自然発話を動的にモデル化するテンポラル・アウェア・イテレーティブ・フレームワークであるTAI-Speechを紹介する。私たちの研究は、より柔軟で堅牢な認知評価ソリューションを提供し、生のオーディオのダイナミクスを直接操作します。
論文参考訳（メタデータ） (2025-09-26T01:56:07Z)
ALIF: Low-Cost Adversarial Audio Attacks on Black-Box Speech Platforms using Linguistic Features [25.28307679567351]
ALIFは、最初のブラックボックス対応言語機能ベースのアタックパイプラインである。本稿では,デジタルドメインと物理再生環境の両方で攻撃を開始するためのALIF-OTLおよびALIF-OTAスキームを提案する。
論文参考訳（メタデータ） (2024-08-03T15:30:16Z)
It's Never Too Late: Fusing Acoustic Information into Large Language Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文参考訳（メタデータ） (2024-02-08T07:21:45Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。