論文の概要: Light-weight Pronunciation Assessment via Discrete Speech Token Surprisal
- arxiv url: http://arxiv.org/abs/2606.19910v2
- Date: Tue, 23 Jun 2026 10:40:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.239486
- Title: Light-weight Pronunciation Assessment via Discrete Speech Token Surprisal
- Title(参考訳): 離散音声認識による軽量発音評価
- Authors: Syeda Faiza Ahmed Sara, Shammur Absar Chowdhury,
- Abstract要約: 自動発音評価の訓練は、しばしばラベル付き学習者エラーや収集にコストがかかる非ネイティブコーパスに依存している。
そこで本研究では,教師なしあるいは軽微な校正を行うために,ネイティブ音声リソースのみを訓練した軽量なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.584132982823883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training automated pronunciation assessment often relies on labeled learner errors or non-native corpora that are costly to collect. We propose a lightweight framework trained only on native speech resources, operating unsupervised or lightly calibrated with a small set of scored utterances. At inference, learner speech is discretized with an SSL encoder and a K-means codebook. A token language model trained on native sequences computes surprisal where higher surprisal indicates phonotactic deviation. We add a transcript-guided Text2DUnit--DTW module that predicts native token sequences from reference text and aligns them to acoustic tokens to derive error-sensitive features. Surprisal and alignment features are fused via simple regression. On SpeechOcean762, PCC improves from 0.60 to 0.66 with transcript guidance, near supervised baselines. Cross-dataset evaluation on L2-ARCTIC shows consistent gains.
- Abstract(参考訳): 自動発音評価の訓練は、しばしばラベル付き学習者エラーや収集にコストがかかる非ネイティブコーパスに依存している。
そこで本研究では,教師なしあるいは軽微な校正を行うために,ネイティブ音声リソースのみを訓練した軽量なフレームワークを提案する。
推論において、学習者音声はSSLエンコーダとK平均符号ブックとで識別される。
ネイティブシークエンスに基づいて訓練されたトークン言語モデルは、より上位のサブプライサルが音韻的偏差を示すようなサブプライサルを計算する。
このモジュールは、参照テキストからネイティブトークンシーケンスを予測し、アコースティックトークンにアライメントすることで、エラーに敏感な特徴を導出します。
副次的およびアライメント的特徴は単純な回帰によって融合される。
SpeechOcean762 では、PCC が 0.60 から 0.66 に改善され、手書きによるガイダンスが、教師付きベースラインに近い。
L2-ARCTICのクロスデータセット評価は、一貫した利得を示す。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Contrastive and Consistency Learning for Neural Noisy-Channel Model in Spoken Language Understanding [1.07288078404291]
音声認識(ASR)に基づく自然言語理解手法を提案する。
ASRエラーによる書き起こしの不整合を処理するため,ノイズチャネルモデルの改良を行った。
4つのベンチマークデータセットの実験は、Contrastive and Consistency Learning (CCL)が既存のメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-05-23T23:10:23Z) - Zero-Shot Automatic Pronunciation Assessment [19.971348810774046]
本稿では,事前学習した音響モデル HuBERT に基づく新しいゼロショットAPA法を提案する。
speechocean762の実験結果から,提案手法は教師付き回帰ベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-31T05:17:17Z) - Assessing Phrase Break of ESL speech with Pre-trained Language Models [6.635783609515407]
本研究は,事前学習言語モデル(PLM)を用いたESL学習者の発話におけるフレーズブレークの評価手法を提案する。
従来の手法とは異なり、この提案では音声をトークンシーケンスに変換し、PLMのパワーを活用する。
論文 参考訳(メタデータ) (2022-10-28T10:06:06Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - SCaLa: Supervised Contrastive Learning for End-to-End Automatic Speech
Recognition [36.766303689895686]
本稿では、エンドツーエンドのASRシステムのための音韻情報学習を強化するために、SCaLa(Supervised Contrastive Learning)の新たなフレームワークを提案する。
具体的には、完全に教師された設定にMCPC(Masked Contrastive Predictive Coding)を導入する。
音素学習を明示的に監視するために、SCaLaは、予め訓練された音響モデルから抽出された音素の強制アライメントに対応する可変長エンコーダ特徴をまずマスキングし、コントラスト学習によりマスクされた音素を予測する。
論文 参考訳(メタデータ) (2021-10-08T15:15:38Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。