論文の概要: Explainable AI in Speaker Recognition -- Attention Map Visualisation and Evaluation
- arxiv url: http://arxiv.org/abs/2606.22901v1
- Date: Mon, 22 Jun 2026 06:31:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 03:48:50.443639
- Title: Explainable AI in Speaker Recognition -- Attention Map Visualisation and Evaluation
- Title(参考訳): 話者認識における説明可能なAI -- 注意マップの可視化と評価
- Authors: Yanze Xu, Mark D. Plumbley, Wenwu Wang,
- Abstract要約: 本研究は,ニューラルネットワークの注意機構の研究を目的としている。
与えられた発話から話者のアイデンティティを識別するように訓練された話者認識ニューラルネットワークで実験が行われる。
- 参考スコア(独自算出の注目度): 21.594428525994285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explaining and understanding the decision-making process of artificial intelligence (AI) systems, particularly those implemented by neural networks, falls within the field of explainable AI (XAI). Analogous to the human attention mechanism, neural networks are assumed to possess their own attention mechanisms that selectively process information during decision-making. This work proposes to study one XAI topic: analysing and visualising the attention mechanisms of neural networks. Our experiments are performed on speaker recognition neural networks that are trained to identify speaker identity from a given utterance. Previous studies have widely used class activation map (CAM)-based methods to analyse and visualise the attention mechanisms of neural networks. Each of these methods produces an attention map for each network input, highlighting which input regions are selectively processed when the speaker recognition network makes decisions. However, the evaluation of attention maps produced by these methods remains largely underexplored. This work systematically reviews an existing attention map evaluation algorithm, establishing key concepts and identifying its shortcomings. On the basis of this existing evaluation algorithm, a new version is then proposed to address the identified shortcomings, called the Modified Randomised Input Sampling for Explanation - Evaluation algorithm (Modified RISE-eval). Using Modified RISE-eval, we evaluate the attention maps produced by two representative CAM-based methods, GradCAM and LayerCAM, applied to a certain speaker recognition network. The evaluation results demonstrate that GradCAM and LayerCAM each exhibit distinct advantages when applied under different experimental conditions in the speaker recognition task.
- Abstract(参考訳): 人工知能(AI)システムの意思決定プロセス、特にニューラルネットワークによって実装されたものの説明と理解は、説明可能なAI(XAI)の分野に該当する。
人間の注意機構とは対照的に、ニューラルネットワークは意思決定中に情報を選択的に処理する独自の注意機構を持っていると仮定される。
本研究は,ニューラルネットワークの注意機構の分析と可視化という,XAIのトピックを研究することを提案する。
本実験は、話者識別ニューラルネットワークを用いて、与えられた発話から話者識別を訓練する。
従来の研究では、ニューラルネットワークの注意機構を分析し視覚化するために、クラスアクティベーションマップ(CAM)ベースの手法が広く用いられてきた。
これらの手法は各ネットワーク入力に対するアテンションマップを生成し、話者認識ネットワークが決定を下すと、どの入力領域が選択的に処理されるかをハイライトする。
しかし,これらの手法によるアテンションマップの評価はほとんど未検討である。
本研究は,既存のアテンションマップ評価アルゴリズムを体系的にレビューし,重要な概念を確立し,その欠点を同定する。
この既存の評価アルゴリズムに基づいて、修正RISE-eval(Modified RISE-eval)と呼ばれる修正ランダム入力サンプリングアルゴリズム(Modified Randomized Input Sampling for Explanation - Evaluation algorithm)と呼ばれる、識別された欠点に対処する新しいバージョンが提案される。
修正RISE-evalを用いて,GradCAMとLayerCAMという2つの代表的なCAMベースの手法を用いて,ある話者認識ネットワークに適用したアテンションマップを評価する。
評価の結果,GradCAMとLayerCAMは,話者認識タスクにおいて異なる実験条件下で適用した場合,それぞれ異なる利点を示すことがわかった。
関連論文リスト
- Discovering Chunks in Neural Embeddings for Interpretability [53.80157905839065]
本稿では, チャンキングの原理を応用して, 人工神経集団活動の解釈を提案する。
まず、この概念を正則性を持つ人工シーケンスを訓練したリカレントニューラルネットワーク(RNN)で実証する。
我々は、これらの状態に対する摂動が関連する概念を活性化または阻害すると共に、入力における概念に対応する同様の繰り返し埋め込み状態を特定する。
論文 参考訳(メタデータ) (2025-02-03T20:30:46Z) - Probing the Information Encoded in Neural-based Acoustic Models of
Automatic Speech Recognition Systems [7.207019635697126]
本稿では,自動音声認識音響モデル(AM)における情報の位置と位置を決定することを目的とする。
話者検証,音響環境分類,性別分類,テンポ歪検出システム,音声感情・感情識別について実験を行った。
分析の結果、ニューラルベースAMは驚くほど音素認識と無関係に思える異種情報を持っていることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:43:53Z) - Unsupervised Representations Improve Supervised Learning in Speech
Emotion Recognition [1.3812010983144798]
本研究では,小さな音声セグメントからの感情認識のための自己教師付き特徴抽出と教師付き分類を統合した革新的なアプローチを提案する。
事前処理では,Wav2Vecモデルに基づく自己教師付き特徴抽出器を用いて音声データから音響特徴を抽出した。
次に、前処理ステップの出力特徴マップを、カスタム設計の畳み込みニューラルネットワーク(CNN)ベースのモデルに入力し、感情分類を行う。
論文 参考訳(メタデータ) (2023-09-22T08:54:06Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Feature Visualization within an Automated Design Assessment leveraging
Explainable Artificial Intelligence Methods [0.0]
3次元CADデータから駆動されるディープラーニングシステムによって主に活用される自動能力評価について紹介した。
現在の評価システムは、抽象的な特徴に関してCADデータを評価することができるが、システム決定の理由に関する幾何学的な指標は持っていない。
NeuroCADプロジェクト内では、ある抽象的特徴に関連する幾何学的特徴を特定するためにxAIメソッドが使用される。
論文 参考訳(メタデータ) (2022-01-28T13:31:42Z) - Thank you for Attention: A survey on Attention-based Artificial Neural
Networks for Automatic Speech Recognition [4.542616945567623]
注意力は、ニューラルネットワークに基づくシーケンシャル・ツー・シーケンスモデルにおいて、非常に一般的かつ効果的なメカニズムである。
オフラインおよびストリーミング音声認識のための注目モデルの開発と進化に焦点を当てている。
論文 参考訳(メタデータ) (2021-02-14T22:28:55Z) - Speech Command Recognition in Computationally Constrained Environments
with a Quadratic Self-organized Operational Layer [92.37382674655942]
軽量ネットワークの音声コマンド認識能力を向上するネットワーク層を提案する。
この手法はテイラー展開と二次形式の概念を借用し、入力層と隠蔽層の両方における特徴のより良い表現を構築する。
このリッチな表現は、Google音声コマンド(GSC)と合成音声コマンド(SSC)データセットに関する広範な実験で示されているように、認識精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-11-23T14:40:18Z) - Deep Reinforced Attention Learning for Quality-Aware Visual Recognition [73.15276998621582]
我々は,任意の畳み込みニューラルネットワークにおける中間注意マップの弱教師付き生成機構を構築した。
メタ批評家ネットワークを導入し、メインネットワークにおける注目マップの質を評価する。
論文 参考訳(メタデータ) (2020-07-13T02:44:38Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。