論文の概要: Layer-wise Probing of wav2vec 2.0 and Whisper for Consonant Cluster Reduction in African American English
- arxiv url: http://arxiv.org/abs/2606.23948v1
- Date: Mon, 22 Jun 2026 21:19:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.691792
- Title: Layer-wise Probing of wav2vec 2.0 and Whisper for Consonant Cluster Reduction in African American English
- Title(参考訳): アフリカ系アメリカ人英語における子音クラスタ削減のためのwav2vec 2.0とwhisperの階層的探索
- Authors: Hamid Mojarad, Kevin Tang,
- Abstract要約: 子音クラスタリダクション(CCR)は音声学的プロセスであり,自動音声認識(ASR)の相違点である。
その結果,CCRは構造的音韻変化として符号化されていることが示唆された。
これらの結果は,現代音声モデルにおけるAE CCRパターンの構造的符号化を示す。
- 参考スコア(独自算出の注目度): 6.164342356356261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised and supervised speech models are increasingly used to investigate which linguistic information their internal representations encode, and at what level of abstraction they encode it. One underexplored phenomenon is consonant cluster reduction (CCR) in African American English (AAE), a widespread phonological process and a source of automatic speech recognition (ASR) disparity. To examine how CCR is represented, we conduct speaker-independent layer-wise probing of wav2vec2-base and Whisper-small using two tasks: segmental reduction detection and segmental restoration of underlying cluster identity. Both models distinguish reduced and canonical forms with high accuracy. Crucially, reduced segments retain cues to their underlying stops, indicating that CCR is encoded as structured gradient phonological variation rather than simple segmental deletion. These results demonstrate structured phonological encoding of AAE CCR patterns in modern speech models.
- Abstract(参考訳): 自己教師付きおよび教師付き音声モデルは、どの言語情報を符号化するか、どの抽象化レベルにおいてどの言語情報を符号化するかを調べるために、ますます使われている。
アフリカン・アメリカン・イングリッシュ (AAE) における子音クラスタ・リダクション (CCR) は, 幅広い音韻過程と自動音声認識 (ASR) の相違の原因となっている。
CCRの表現方法を検討するために,Wav2vec2-baseとWhisper-smallの話者非依存層探索を行う。
どちらのモデルも、精度の高い縮小形式と正準形式を区別する。
重要なことに、縮小されたセグメントは、その基盤となる停止点に手がかりを保持しており、CCRは単純なセグメント削除ではなく、構造化された勾配音韻変化として符号化されていることを示している。
これらの結果は,現代音声モデルにおけるAE CCRパターンの構造的符号化を示す。
関連論文リスト
- WavCube: Unifying Speech Representation for Understanding and Generation via Semantic-Acoustic Joint Modeling [35.33131758542107]
WavCubeはSSL音声エンコーダから派生したコンパクトな連続ラテントである。
言語理解、再構築、生成を同時にサポートする。
試行では、最先端のゼロショットTSパフォーマンスと、トレーニングコンバージェンスを著しく高速化することを示している。
論文 参考訳(メタデータ) (2026-05-07T15:17:24Z) - Contrastive and Consistency Learning for Neural Noisy-Channel Model in Spoken Language Understanding [1.07288078404291]
音声認識(ASR)に基づく自然言語理解手法を提案する。
ASRエラーによる書き起こしの不整合を処理するため,ノイズチャネルモデルの改良を行った。
4つのベンチマークデータセットの実験は、Contrastive and Consistency Learning (CCL)が既存のメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-05-23T23:10:23Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Bi-LSTM Scoring Based Similarity Measurement with Agglomerative
Hierarchical Clustering (AHC) for Speaker Diarization [0.0]
2つの話者間の典型的な会話は、声が重なり合う部分からなり、互いに中断したり、複数の文間での会話を止めたりする。
ダイアリゼーション技術の最近の進歩は、話者ダイアリゼーションシステムを即興化するニューラルネットワークベースのアプローチを活用している。
類似度行列に存在する要素を推定するための双方向長短期記憶ネットワークを提案する。
論文 参考訳(メタデータ) (2022-05-19T17:20:51Z) - Chain-based Discriminative Autoencoders for Speech Recognition [16.21321835306968]
音声認識のための識別オートエンコーダ(DcAE)の3つの新しいバージョンを提案する。
まず,分類的クロスエントロピーと地上の真理と予測された三音状態列の相互情報の両方を考慮に入れた新たな目的関数を用いる。
頑健な音声認識に適用するために、我々はc-DcAEを階層構造と並列構造に拡張し、hc-DcAEとpc-DcAEを生成する。
論文 参考訳(メタデータ) (2022-03-25T14:51:48Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。