論文の概要: Speaker Group Encoding in Self-supervised Speech Recognition Models
- arxiv url: http://arxiv.org/abs/2606.10654v1
- Date: Tue, 09 Jun 2026 10:01:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.433003
- Title: Speaker Group Encoding in Self-supervised Speech Recognition Models
- Title(参考訳): 自己教師型音声認識モデルにおける話者グループ符号化
- Authors: Felix Herron, Solange Rossato Alexandre Allauzen, Benoit Favre, François Portet,
- Abstract要約: 自己教師型音声認識モデル(S3Ms)は話者群(SGs)について学ぶ
S3Msは複数の話者群カテゴリ(SGC)に関する情報を符号化している。
我々は、より公平なASRアルゴリズムの設計において、我々の研究成果がどのように有用かについて議論する。
- 参考スコア(独自算出の注目度): 6.54974886755316
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We investigate what self-supervised speech recognition models (S3Ms) learn about speaker groups (SGs). We examine several states of S3Ms: pretrained, finetuned on speaker identification (SID), finetuned on automatic speech recognition (ASR), and ASR-finetuned using a fairness enhancing algorithm. We find that S3Ms encode information about several speaker group categories (SGCs), including their gender, age, dialect, ethnicity, and whether they are a native speaker. We find that finetuning for SID amplifies certain SGCs, namely those whose variance is more phonetic in nature, though it does not amplify other SGCs, namely those whose variance is more semantic in nature. On the other hand, finetuning for ASR discards phonetically variant speaker group information (SGI) but retains semantically variant SGI. We find that ASR algorithms designed for fairness improvement change to what extent SGI is encoded in S3Ms; however, this is primarily true for for phonetically variant SGCs, and less true for semantically variant SGCs. We discuss how SGI is encoded by each layer, and identify subdimensions of embeddings responsible for encoding different SGCs. Finally, we discuss how our findings could be beneficial in designing fairer ASR algorithms.
- Abstract(参考訳): 本研究では,自己教師型音声認識モデル(S3Ms)が話者群(SGs)について何を学ぶかを検討する。
本稿では,事前訓練,話者識別(SID)による微調整,音声認識による微調整(ASR)による微調整,公平性向上アルゴリズムによるASR微細化など,S3Msの現状について検討する。
S3Msは、性別、年齢、方言、民族、母語話者か否かなど、複数の話者グループカテゴリ(SGC)に関する情報を符号化している。
SIDの微調整は、特定のSGCを増幅する、すなわち、分散が自然においてより音声的であるものを増幅するが、他のSGCを増幅しない、すなわち、分散が自然においてより意味論的であるものを増幅する。
一方、ASRのファインタニングは音声学的に変化する話者グループ情報(SGI)を捨てるが、意味論的に変化するSGIは保持する。
S3MsでSGIが符号化される程度に、公平性向上のために設計されたASRアルゴリズムが現れるが、これは主に音素的に変化するSGCには当てはまり、意味的に変化するSGCには当てはまらない。
本稿では,各層がSGIをエンコードする方法について論じるとともに,異なるSGCをエンコードする埋め込みのサブディメンジョンを同定する。
最後に、より公平なASRアルゴリズムの設計において、我々の研究成果がどのように有用かについて議論する。
関連論文リスト
- Where Do Self-Supervised Speech Models Become Unfair? [44.43436255222398]
音声エンコーダモデルは、一部の話者グループ(SG)のメンバーを他のモデルよりも良くモデル化することが知られている。
事前学習型自己教師型音声エンコーダモデル(S3Ms)の第1階層フェアネス解析について述べる。
S3Msは、両方のタスクに対して特定のSGに偏った埋め込みを生成します。
論文 参考訳(メタデータ) (2026-04-20T13:27:12Z) - Frontend Token Enhancement for Token-Based Speech Recognition [50.35062963870211]
音声信号の離散化表現は、音声認識アプリケーションにおける連続的な特徴の効率的な代替手段である。
本研究では,雑音の多い音声からクリーンな音声トークンを推定し,意味的トークンを用いてASRバックエンド上で評価するシステムを提案する。
入力/トークン領域に基づく拡張モデルとして,ウェーブ・ツー・ウェーブ・トゥ・ウェーブ・トゥ・アウトプット,連続SSL機能・ツー・ツー・ケン,ウェーブ・ツー・ツー・ケンの4種類を検討する。
論文 参考訳(メタデータ) (2026-02-04T05:02:15Z) - Accent-Invariant Automatic Speech Recognition via Saliency-Driven Spectrogram Masking [1.108292291257035]
本稿ではアクセントと方言の分類を認識パイプラインに統合するアクセント不変のASRフレームワークを提案する。
我々のアプローチは、アクセント固有の手がかりを捉え、その予測に最も影響を及ぼす領域をマスキングするためにスペクトログラムベースの分類器を訓練し、データ拡張にマスク付きスペクトログラムを使用することである。
ペルシャ語では、複数の地域アクセントにまたがる新たに収集されたデータセットを導入し、ペルシャ語ASRにおけるアクセント変動のシステマティックなベンチマークを確立した。
論文 参考訳(メタデータ) (2025-10-10T16:41:53Z) - AdaCS: Adaptive Normalization for Enhanced Code-Switching ASR [1.8533128809847572]
文内コードスイッチングは,音声認識システムにおいて重要な課題である。
AdaCSは、適応バイアスアテンションモジュールをエンコーダ・デコーダネットワークに統合する正規化モデルである。
実験の結果,AdaCSはベトナムのCS ASR正規化において,従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-01-13T07:27:00Z) - Self-Supervised Speech Representations are More Phonetic than Semantic [52.02626675137819]
自己教師付き音声モデル(S3Ms)は、音声応用の有効なバックボーンとなっている。
S3Msで符号化された単語レベルの言語特性のよりきめ細かい分析を求める。
本研究により,S3M表現は意味的類似性よりも連続的かつ顕著に音声的類似性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-06-12T20:04:44Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Explanations for Automatic Speech Recognition [9.810810252231812]
音声フレームのサブセットとして、ASR転写の説明を提供する。
我々は,画像分類-統計的故障局所化(SFL)とCausalから既存の説明可能なAI技術を適用した。
提案手法は,3種類のASR,Google API,Sphinx,Deepspeechのベースラインモデル,およびCommonvoiceデータセットから得られた100のオーディオサンプルに対して,提案手法による説明の質を評価する。
論文 参考訳(メタデータ) (2023-02-27T11:09:19Z) - Learning Decoupling Features Through Orthogonality Regularization [55.79910376189138]
音声認識におけるキースポッティング(KWS)と話者検証(SV)は2つの重要なタスクである。
我々は,同じネットワーク構造を持つ2分岐のディープネットワーク(KWSブランチとSVブランチ)を開発する。
KWS と SV のパフォーマンスを同時に向上させるために,新しいデカップリング特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:18:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。