論文の概要: How Well Do Self-Supervised Speech Models Encode Age and Gender in Children's Speech? A Layer-Wise Analysis Across Multiple Architectures
- arxiv url: http://arxiv.org/abs/2606.22177v1
- Date: Sat, 20 Jun 2026 18:16:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 22:18:22.561077
- Title: How Well Do Self-Supervised Speech Models Encode Age and Gender in Children's Speech? A Layer-Wise Analysis Across Multiple Architectures
- Title(参考訳): 子どもの発話における年齢とジェンダーをエンコードする自己監督音声モデルについて : 多層構造における層幅解析
- Authors: Abhijit Sinha, Hemant Kumar Kathania, Mohit Joshi, Harishankar Kumar, Shrikanth Narayanan, Sudarsana Reddy Kadiri,
- Abstract要約: 本稿では4つのSSLモデルの層にまたがって年齢や性別の情報をエンコードする方法を包括的に分析する。
その結果、年齢と性別に関する情報はSSL層に不均一に分散されていることがわかった。
1~3秒の短い音声セグメントであっても、信頼性の高い年齢と性別の分類が達成可能であることを示す。
- 参考スコア(独自算出の注目度): 38.10327438835634
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Self-supervised learning (SSL) models have become a central component of modern speech processing systems, as they enable the learning of rich acoustic representations without reliance on labeled data. Despite their success on adult speech, it remains unclear how effectively these models capture speaker-related attributes such as age and gender in children's speech, which differs substantially from adult speech due to ongoing physiological and cognitive development. Higher pitch, increased articulatory variability, and age-dependent acoustic changes make children's speech a particularly challenging domain. In this work, we present a comprehensive analysis of how age and gender information is encoded across layers of four widely used SSL models: Wav2Vec2, HuBERT, Data2Vec, and WavLM. Layer-wise features are extracted and evaluated using a lightweight CNN on two benchmark children's speech corpora, PFSTAR and CMU Kids. To analyze feature compactness and redundancy, PCA is applied to identify redundancy and highlight the dimensions that contribute most to classification performance. Experimental results show that age- and gender-related information is unevenly distributed across SSL layers, with early to mid-level layers encoding the strongest paralinguistic cues. HuBERT achieves the best overall performance for age classification, while Wav2Vec2 and HuBERT lead gender classification on PFSTAR and CMU Kids, respectively. Beyond single-split evaluation, we further demonstrate that these findings remain stable under speaker-wise cross-validation, layer aggregation, and cross-database evaluation, indicating robustness to data imbalance and domain mismatch. Finally, we show that reliable age and gender classification is achievable even from short speech segments of 1--3 seconds.
- Abstract(参考訳): 自己教師付き学習(SSL)モデルは、ラベル付きデータに依存しないリッチな音響表現の学習を可能にするため、現代の音声処理システムの中心的なコンポーネントとなっている。
成人発話の成功にもかかわらず、これらのモデルが子どもの発話における年齢や性別などの話者関連属性を効果的に捉えているかは明らかになっていない。
ピッチの高め、調音性の向上、年齢に依存した音響変化は、子供の発話を特に困難な領域にしている。
本研究では,Wav2Vec2,HuBERT,Data2Vec,WavLMの4つのSSLモデルで,年齢と性別の情報をエンコードする方法を包括的に分析する。
2つのベンチマーク児の音声コーパス(PFSTAR)とCMU Kids(CMU Kids)の軽量CNNを用いて,階層的特徴抽出と評価を行った。
特徴のコンパクト性と冗長性を解析するために,PCAを用いて冗長性を識別し,分類性能に最も寄与する寸法を強調する。
実験の結果,年齢・性別関連情報はSSL層に不均一に分散し,最強のパラ言語的手がかりを符号化する初期層と中層層が存在することがわかった。
HuBERTは年齢分類において、Wav2Vec2とHuBERTはそれぞれPFSTARとCMU Kidsの性別分類をリードする。
単分割評価の他に、これらの結果が話者単位のクロスバリデーション、レイヤアグリゲーション、データベース間評価の下で安定であり、データの不均衡やドメインミスマッチに対する堅牢性を示すことも示している。
最後に, 1~3秒の短い音声区間であっても, 年齢・性別の分類が可能であることを示す。
関連論文リスト
- Abjad-Kids: An Arabic Speech Classification Dataset for Primary Education [0.0]
本稿では,幼稚園・初等教育用に設計されたアラビア語音声データセットであるAbjad-Kidsについて述べる。
データセットは、3歳から12歳までの子供から収集された4397のオーディオサンプルからなり、141のクラスをカバーしている。
本稿では,CNN-LSTMアーキテクチャに基づく階層型音声分類を提案する。
論文 参考訳(メタデータ) (2026-03-11T08:03:52Z) - Can Layer-wise SSL Features Improve Zero-Shot ASR Performance for Children's Speech? [43.31597557333867]
本研究では、最先端SSL事前訓練モデルから抽出した階層的特徴が、ゼロショットシナリオにおける子供の発話におけるASRの性能向上に有効であることを示す。
分析では、ゼロショットシナリオにおいて、子どもの発話におけるASRパフォーマンスを向上させる最も効果的なレイヤを特定した。
論文 参考訳(メタデータ) (2025-08-28T21:32:36Z) - Speech Discrete Tokens or Continuous Features? A Comparative Analysis for Spoken Language Understanding in SpeechLLMs [59.230858581944425]
音声処理には、離散トークンと連続的な特徴の2つの主要なアプローチが出現している。
自己教師付き学習(SSL)に基づく離散的かつ連続的な特徴を、同じ実験環境下で比較する。
その結果, 連続的な特徴は, 様々なタスクにおいて, 離散トークンよりも優れていた。
論文 参考訳(メタデータ) (2025-08-25T10:16:07Z) - Benchmarking Training Paradigms, Dataset Composition, and Model Scaling for Child ASR in ESPnet [72.53502346791814]
データセット、SSL表現(WavLM、XEUS)、デコーダアーキテクチャ間のフラットスタートトレーニングを比較した。
SSL表現は成人のスピーチに偏りがあり、子どものスピーチに対するフラットスタートトレーニングはこれらのバイアスを緩和する。
年齢関連ASRと話者検証分析は、プロプライエタリモデルの限界を強調している。
論文 参考訳(メタデータ) (2025-08-22T17:59:35Z) - Layer-Wise Analysis of Self-Supervised Representations for Age and Gender Classification in Children's Speech [27.60599947546406]
本稿では,PFSTARとCMU Kidsデータセットを用いて,4種類のWav2Vec2変異体を詳細に解析する。
その結果,早期層はより深い層よりも話者固有の手がかりを効果的に捉えていることがわかった。
PCAの適用により、分類がさらに改善され、冗長性が低減され、最も情報性の高いコンポーネントが強調される。
論文 参考訳(メタデータ) (2025-08-14T04:11:44Z) - Age-Dependent Analysis and Stochastic Generation of Child-Directed Speech [10.369750912567714]
本研究は,CDSの転写と年齢を訓練した言語モデルを用いて,子ども指向音声(CDS)の年齢依存性言語特性をモデル化するアプローチを提案する。
生成したCDSの特徴と年齢の異なる子供たちの実際の発話とを比較し, LMが年齢依存性のCDSの変化を捉えていることを示す。
論文 参考訳(メタデータ) (2024-05-13T12:35:10Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。