論文の概要: Improving low-resource ASR using bilingual fine-tuning with language identification: a cross-linguistic evaluation
- arxiv url: http://arxiv.org/abs/2606.17820v1
- Date: Tue, 16 Jun 2026 11:48:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.407856
- Title: Improving low-resource ASR using bilingual fine-tuning with language identification: a cross-linguistic evaluation
- Title(参考訳): 言語識別を用いたバイリンガル微調整による低リソースASRの改良--言語横断的評価
- Authors: Reihaneh Amooie, Yun Hao, Wietse de Vries, Jelske Dijkstra, Matt Coler, Martijn Wieling,
- Abstract要約: 本研究では,低音源言語におけるバイリンガル微調整が自動音声認識(ASR)に与える影響について検討する。
本手法は言語学的および地理的に異なる9つの言語対にまたがって評価する。
- 参考スコア(独自算出の注目度): 12.704618889220404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study explores how bilingual fine-tuning affects automatic speech recognition (ASR) in low-resource languages. We evaluate this method across nine linguistically and geographically diverse language pairs, covering a range of language families and writing systems. To distinguish the two languages, during training, we pre-pend each input text with a language identification token. At inference, the model jointly predicts both the language and transcription from the speech input alone. As texts for which the language is incorrectly determined show low ASR performance, we also conduct a follow-up experiment in which the language identification token is provided both during training and inference. Our results show that bilingual fine-tuning can be beneficial when language identification accuracy is high, and that in cases where language identification performance is low, including the language identification token at inference helps to improve ASR performance.
- Abstract(参考訳): 本研究では,低音源言語におけるバイリンガル微調整が自動音声認識(ASR)に与える影響について検討する。
本手法は言語学的および地理的に多様である9つの言語対にまたがって評価し,言語家族や書記システムをカバーする。
2つの言語を区別するために、トレーニング中、各入力テキストに言語識別トークンをプリペンドする。
推論において、モデルは音声入力のみから言語と転写の両方を共同で予測する。
言語が誤って決定されるテキストは、ASR性能が低いことを示すため、トレーニングと推論の両方において、言語識別トークンが提供されるフォローアップ実験も実施する。
その結果,言語識別精度が高い場合にはバイリンガル微調整が有用であり,推論時の言語識別トークンを含む言語識別性能が低い場合には,ASRの性能向上に役立つことがわかった。
関連論文リスト
- Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。
テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文 参考訳(メタデータ) (2025-05-26T07:21:20Z) - Improving Cross-Lingual Phonetic Representation of Low-Resource Languages Through Language Similarity Analysis [7.751856268560216]
本稿では,低音源言語における音声処理における言語的類似性が言語間音声表現に与える影響について検討する。
音韻学的に類似した言語を使用すると、単言語訓練よりも55.6%の相対的な改善が達成される。
論文 参考訳(メタデータ) (2025-01-12T13:29:24Z) - Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - Label Aware Speech Representation Learning For Language Identification [49.197215416945596]
本稿では,自己指導型表現学習と事前学習タスクのための言語ラベル情報を組み合わせた新しいフレームワークを提案する。
このフレームワークは、ラベル認識音声表現(LASR)学習と呼ばれ、三重項に基づく目的関数を使用して、言語ラベルと自己教師付き損失関数を組み込む。
論文 参考訳(メタデータ) (2023-06-07T12:14:16Z) - MoLE : Mixture of Language Experts for Multi-Lingual Automatic Speech
Recognition [12.23416994447554]
我々はMixture-of-Language-Expert(MoLE)という多言語音声認識ネットワークを提案する。
MoLEは、任意の言語で入力された音声から言語表現を分析し、軽量な言語トークン化器で言語固有の専門家を活性化する。
信頼性に基づいて、アクティベートされた専門家と言語に依存しない専門家を集約し、言語条件の埋め込みを表現する。
論文 参考訳(メタデータ) (2023-02-27T13:26:17Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Bilingual End-to-End ASR with Byte-Level Subwords [4.268218327369146]
文字レベル、バイトレベル、バイトペア符号化(BPE)、バイトレベルバイトペア符号化(BBPE)など、さまざまな表現について検討する。
我々は,発話に基づくバイリンガルASRをサポートする単一エンドツーエンドモデルの開発に注力する。
ペナルティスキーム付きBBPEは,少ない出力と少ないパラメータであっても,発話ベースのバイリンガルASR性能を2%から5%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-01T15:01:01Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。