論文の概要: PiDA: Phonetically-Informed Data Augmentation for Robust Vietnamese Speech Translation
- arxiv url: http://arxiv.org/abs/2606.12911v1
- Date: Thu, 11 Jun 2026 05:09:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.595182
- Title: PiDA: Phonetically-Informed Data Augmentation for Robust Vietnamese Speech Translation
- Title(参考訳): PiDA:ロバストベトナム語音声翻訳のための音声インフォームドデータ拡張
- Authors: Giang Son Nguyen, Tung X. Nguyen, Hieu Minh Truong, Nhu Vo, Wray Buntine, Dung D. Le,
- Abstract要約: 音声学的インフォームドデータ拡張(PiDA)は、音声学的に類似した代替語で単語を置換することで、ASRのような汚職を生成する。
FLEURSベトナム語英語のPiDA拡張版の微調整は、誤ASR出力の翻訳を改善する。
- 参考スコア(独自算出の注目度): 4.573909205189436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cascaded speech translation (ST) systems suffer from error propagation when Automatic Speech Recognition (ASR) outputs incorrect transcripts. We present the first systematic categorization of ASR errors for Vietnamese ST, classifying substitution errors by phonetic cause and quantifying their impact on downstream Neural Machine Translation (NMT) performance using Linear Mixed-Effects Modelling. We confirm that most ASR substitution errors arise from phonetic confusions rather than random noise, and that these phonetic errors significantly degrade ST quality. Motivated by this finding, we propose Phonetically-Informed Data Augmentation (PiDA), which generates ASR-like corruptions by substituting words with phonetically similar alternatives using phonetic word embeddings. Fine-tuning on a PiDA-augmented version of FLEURS Vietnamese-English improves translation of erroneous ASR outputs (up to +2.04 BLEU over standard fine-tuning) while also slightly improving clean-text performance.
- Abstract(参考訳): 自動音声認識(ASR)が誤った書き起こしを出力した場合、カスケード音声翻訳(ST)システムはエラーの伝搬に悩まされる。
ベトナム語STのASR誤りの最初の系統分類を行い、音声による置換誤りを分類し、線形混合効果モデルを用いて下流ニューラルネットワーク翻訳(NMT)の性能に与える影響を定量化する。
その結果,ほとんどのASR置換誤差はランダムノイズではなく音韻的混同によるものであり,これらの音韻的誤りはST品質を著しく低下させることがわかった。
この発見を動機として,音声単語埋め込みを用いた音声的類似の代替語に代えて,ASRのような汚職を生成するPhonical-Informed Data Augmentation (PiDA)を提案する。
PiDAで強化されたFLEURSベトナム英語の微調整は、誤ったASR出力(標準微調整よりも+2.04 BLEUまで)の翻訳を改善し、クリーンテキストのパフォーマンスをわずかに改善する。
関連論文リスト
- HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - PATCorrect: Non-autoregressive Phoneme-augmented Transformer for ASR
Error Correction [0.9502148118198473]
単語誤り率(WER)を低減する新しい非自己回帰的(NAR)アプローチであるPATCorrectを提案する。
PATCorrectは、様々な上流ASRシステムにおいて、英語コーパスにおける最先端のNAR法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-10T04:05:24Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - Hallucination of speech recognition errors with sequence to sequence
learning [16.39332236910586]
プレーンテキストデータを使用して話し言葉理解やASRのためのシステムのトレーニングを行う場合、証明された戦略は、ASR出力が金の転写を与えるであろうものを幻覚することです。
本稿では,asr語列の幻覚的出力,入力語列の条件づけ,対応する音素列を直接予測する新しいエンドツーエンドモデルを提案する。
これにより、ドメイン内ASRシステムの未確認データの転写からのエラーのリコール、およびドメイン外ASRシステムの非関連タスクからのオーディオの転写の以前の結果が改善されます。
論文 参考訳(メタデータ) (2021-03-23T02:09:39Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。