論文の概要: Impact Analysis of Speech Representation Learning Models for Acoustic Side-Channel Attack
- arxiv url: http://arxiv.org/abs/2606.21210v1
- Date: Fri, 19 Jun 2026 08:26:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 07:22:03.199781
- Title: Impact Analysis of Speech Representation Learning Models for Acoustic Side-Channel Attack
- Title(参考訳): 音響サイドチャネル攻撃に対する音声表現学習モデルのインパクト解析
- Authors: Nitin Choudhury, Vikrant Vikram Pratap Maurya, Arun Balaji Budhuru, Orchid Chetia Phukan,
- Abstract要約: KEYACは、標準およびVoIP設定の両方でASCAの表現一般化を分析するために設計されたデータセットである。
完全連結ネットワークと畳み込みネットワークを用いて、ゼロショットおよび部分的な微調整設定下で6つの表現学習モデルを評価する。
その結果、部分的な微調整により性能が向上する一方、モデルはVoIPコーデック全体の一般化に苦慮していることがわかった。
- 参考スコア(独自算出の注目度): 7.2972297703292135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Acoustic side-channel attacks (ASCA) on keyboards have gained increasing attention, yet impact of speech representation learning models in ASCA remains unexplored. Addressing this, we introduce KEYAC, a dataset designed to analyze representation generalization for ASCA under both standard and VoIP codec settings. On KEYAC, we evaluate six representation learning models under zero-shot and partial fine-tuning settings using fully connected and convolutional networks. Results show that while partial fine-tuning improves performance, models struggle to generalize across VoIP codecs. We hypothesize this limitation stems from inadequate modeling of nonlinear feature interactions in conventional fine-tuning architectures. To address this, we employ Kolmogorov-Arnold Networks (KAN) for fine-tuning. Empirical results show that KAN-based fine-tuning consistently outperforms the baselines and establishes a new state-of-the-art on KEYAC.
- Abstract(参考訳): キーボードにおけるアコースティックサイドチャネル攻撃(ASCA)が注目されているが、ASCAにおける音声表現学習モデルの影響は未解明のままである。
ここでは,標準およびVoIPコーデック設定下でのASCAの表現一般化を解析するためのデータセットであるKEYACを紹介する。
KEYACでは、完全連結ネットワークと畳み込みネットワークを用いて、ゼロショットおよび部分的な微調整設定下で6つの表現学習モデルを評価する。
その結果、部分的な微調整により性能が向上する一方で、モデルはVoIPコーデック全体の一般化に苦慮していることがわかった。
この制限は、従来の微調整アーキテクチャにおける非線形特徴相互作用の不十分なモデリングに起因していると仮定する。
これを解決するため,我々はKAN(Kolmogorov-Arnold Networks)を微調整に利用した。
実験結果から,kan-based fine-tuning がベースラインを一貫して上回り,KEYAC に新たな最先端技術を確立することが示唆された。
関連論文リスト
- RAE-AR: Taming Autoregressive Models with Representation Autoencoders [61.73674018219353]
分散正規化によるトークンの単純化により、モデリングの難易度を緩和し、収束性を向上させる。
我々は、露光バイアスを軽減するために、訓練中にガウスノイズ注入を取り入れて予測を強化する。
この作業は、視覚的理解と生成的モデリングをまたいだ、より統一されたアーキテクチャの道を開く。
論文 参考訳(メタデータ) (2026-04-02T02:39:28Z) - StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。
我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。
スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T11:35:05Z) - Pushing the Performance of Synthetic Speech Detection with Kolmogorov-Arnold Networks and Self-Supervised Learning Models [1.7205106391379026]
我々は、XLSR-Conformerモデルにおける従来のマルチ層パーセプトロンをコルモゴロフ・アルノルドネットワーク(KAN)で置き換える新しいアプローチを提案する。
以上の結果から,KAをSSLベースモデルに統合することで,LAとDFの相対的な性能を60.55%向上させることができることがわかった。
論文 参考訳(メタデータ) (2025-06-17T03:30:58Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Improving Acoustic Side-Channel Attacks on Keyboards Using Transformers and Large Language Models [1.1674893622721483]
本研究では,アコースティックサイドチャネルアタック(ASCA)の有効性と適用性を高めるための深層学習手法について検討する。
我々は、CoAtNetモデルを用いて、先行研究よりも大幅に改善し、最先端の性能を実現した。
重要な進歩は、現実のシナリオに対するノイズ緩和手法の導入である。
論文 参考訳(メタデータ) (2025-02-13T21:33:57Z) - EnCLAP++: Analyzing the EnCLAP Framework for Optimizing Automated Audio Captioning Performance [4.345953264604522]
自動音声キャプションにおける最先端モデルであるEnCLAPフレームワークの解析と最適化を行う。
オリジナルをはるかに上回る拡張バージョンであるEnCLAP++を開発しています。
論文 参考訳(メタデータ) (2024-09-02T12:23:18Z) - You Only Train Once: A Unified Framework for Both Full-Reference and No-Reference Image Quality Assessment [45.62136459502005]
本稿では,完全な参照 (FR) と非参照 (NR) IQA を行うネットワークを提案する。
まず、入力画像から多レベル特徴を抽出するためにエンコーダを用いる。
FRおよびNR入力のユニバーサルアダプタとして階層的注意(HA)モジュールを提案する。
エンコーダの浅い層と深い層との間の特徴相関を調べるために, セマンティック・ディストーション・アウェア (SDA) モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-14T11:03:04Z) - Adversarial Audio Synthesis with Complex-valued Polynomial Networks [60.231877895663956]
音声における時間周波数(TF)表現は、実数値ネットワークとしてますますモデル化されている。
我々は,このような複雑な数値表現を自然な方法で統合するAPOLLOと呼ばれる複雑な数値ネットワークを導入する。
APOLLOは、音声生成におけるSC09の最先端拡散モデルよりも17.5%$改善され、8.2%ドルとなる。
論文 参考訳(メタデータ) (2022-06-14T12:58:59Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。