論文の概要: Listening with Attention: Entropy-Guided Explainability for Transformer-Based Audio Models
- arxiv url: http://arxiv.org/abs/2606.14647v1
- Date: Fri, 12 Jun 2026 17:08:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:43.006495
- Title: Listening with Attention: Entropy-Guided Explainability for Transformer-Based Audio Models
- Title(参考訳): 注意による聴取:変圧器ベース音響モデルにおけるエントロピーガイドによる説明可能性
- Authors: Ravi Ranjan, Utkarsh Grover, Xiaomin Lin, Agoritsa Polyzou,
- Abstract要約: LEAF-XはトランスフォーマーベースのASRのためのモデル固有のXAIフレームワークである。
エンコーダデコーダと音声拡張デコーダのみのモデルの内部構造を利用して説明を生成する。
その結果, 忠実度は32%向上し, 35~39%の強い局所性/スパーシティー, 最も安定した属性が得られた。
- 参考スコア(独自算出の注目度): 1.8986796884429726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based automatic speech recognition (ASR) models such as Whisper are highly accurate, but their predictions remain difficult to interpret. Existing explainable AI (XAI) methods often lack faithfulness and precise temporal grounding. We propose Listening with Entropy-guided Attention for Faithful explainability (LEAF-X), a model-intrinsic XAI framework for transformer-based ASR. LEAF-X combines entropy-guided attention weighting, multi-layer attention rollout, and optional causal ablations to identify low-entropy, high-impact heads and layers, producing sparse token-to-frame attributions. Unlike perturbation-based explainers or raw attention maps, LEAF-X exploits the internal structure of encoder-decoder and speech-augmented decoder-only models to generate explanations that better reflect model computation. Results show 32% improved faithfulness, 35-39% stronger locality/sparsity, and the most stable attributions, supporting more transparent and auditable ASR.
- Abstract(参考訳): Whisperのようなトランスフォーマーベース自動音声認識(ASR)モデルは非常に正確であるが、その予測は解釈が難しいままである。
既存の説明可能なAI(XAI)手法は、忠実さと正確な時間的根拠を欠いていることが多い。
本稿では、トランスフォーマーベースASRのためのモデル固有のXAIフレームワークであるLEAF-X(Leaking with Entropy-guided Attention for Faithful explainability)を提案する。
LEAF-Xは、エントロピー誘導の注意重み付け、多層アテンションロールアウト、オプションの因果アブリゲーションを組み合わせて、低エントロピー、高インパクトヘッドと層を識別し、スパーストークン・ツー・フレーム属性を生成する。
摂動に基づく説明や生の注意マップとは異なり、LEAF-Xはエンコーダ・デコーダと音声拡張デコーダのみのモデルの内部構造を利用して、モデル計算をよりよく反映した説明を生成する。
その結果, 忠実度が32%向上し, 35~39%の強い局所性/疎外性が向上し, 最も安定した属性が得られた。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Adaptive Guidance for Retrieval-Augmented Masked Diffusion Models [60.25003813232697]
本稿では,Masked Diffusion Models (MDMs) のトレーニング自由適応ガイダンスフレームワークとして,適応検索型Masked Diffusion (ARAM) を提案する。
ARAMは、検索した文脈によって誘導される分布シフトのSNR(Signal-to-Noise Ratio)に従って、雑音発生時の誘導スケールを校正する。
複数の知識集約型QAベンチマークの実験は、ARAMが競争力のあるRAGベースラインよりも全体的なQA性能を改善することを示している。
論文 参考訳(メタデータ) (2026-03-18T12:54:50Z) - Training-Free Intelligibility-Guided Observation Addition for Noisy ASR [57.74127683005929]
本稿では,雑音環境下での音声認識を改善するために,インテリジェンス誘導観測加算法を提案する。
さまざまなSE-ASRの組み合わせとデータセットによる実験は、既存のOAベースラインよりも強い堅牢性と改善を示している。
論文 参考訳(メタデータ) (2026-02-24T14:46:54Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Speech Recognition Model Improves Text-to-Speech Synthesis using Fine-Grained Reward [4.375679183191095]
ASR-driven Attentive Reward (W3AR)による単語レベルTSアライメントの導入
W3ARは、事前訓練されたASRモデルからの注意を使って、TSモデルによって予測されるシーケンスのよりきめ細かいアライメントと最適化を駆動する。
実験により、W3ARは既存のTSシステムの品質を改善し、目に見えない話者に対するゼロショットロバスト性を強化することが示された。
論文 参考訳(メタデータ) (2025-11-12T17:30:13Z) - Detection Transformers Under the Knife: A Neuroscience-Inspired Approach to Ablations [5.5967570276373655]
我々は3つの最先端検出トランスモデルにおけるキーコンポーネントの破壊の影響を系統的に分析する。
我々は,これらの改善がパフォーマンス指標gIoUとF1スコアに与える影響を評価する。
本研究は, モデル性能に対する内部成分の寄与を明らかにすることにより, DETRのXAIを推し進める。
論文 参考訳(メタデータ) (2025-07-29T12:00:08Z) - Explanations for Automatic Speech Recognition [9.810810252231812]
音声フレームのサブセットとして、ASR転写の説明を提供する。
我々は,画像分類-統計的故障局所化(SFL)とCausalから既存の説明可能なAI技術を適用した。
提案手法は,3種類のASR,Google API,Sphinx,Deepspeechのベースラインモデル,およびCommonvoiceデータセットから得られた100のオーディオサンプルに対して,提案手法による説明の質を評価する。
論文 参考訳(メタデータ) (2023-02-27T11:09:19Z) - AutoTriggER: Label-Efficient and Robust Named Entity Recognition with
Auxiliary Trigger Extraction [54.20039200180071]
我々は,エンティティトリガの自動生成と活用によるNER性能向上のための新しいフレームワークを提案する。
筆者らのフレームワークは,ポストホックな説明を活用して合理的な知識を生成し,埋め込み手法を用いてモデルの事前知識を強化する。
AutoTriggERは強力なラベル効率を示し、目に見えないエンティティを一般化し、RoBERTa-CRFベースラインを平均0.5F1ポイント上回る性能を持つ。
論文 参考訳(メタデータ) (2021-09-10T08:11:56Z) - Relaxed Attention: A Simple Method to Boost Performance of End-to-End
Automatic Speech Recognition [27.530537066239116]
トレーニング中のエンコーダ・デコーダの注意重みに対する均一分布の段階的注入である緩和注意の概念を導入する。
ゆるやかな注意で訓練されたトランスフォーマーは、外部言語モデルを用いたデコーディングにおいて、標準ベースラインモデルよりも一貫して優れていた。
WSJでは,単語誤り率3.65%のトランスフォーマーに基づくエンドツーエンド音声認識のベンチマークを新たに設定した。
論文 参考訳(メタデータ) (2021-07-02T21:01:17Z) - Weak-Attention Suppression For Transformer Based Speech Recognition [33.30436927415777]
Weak-Attention Suppression (WAS) を提案する。
We demonstrate that WAS leads to consistent Word Error Rate (WER) improve over strong transformer baselines。
論文 参考訳(メタデータ) (2020-05-18T23:49:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。