論文の概要: Adding Robust Code-Switching Capabilities to High Performance Multilingual ASR
- arxiv url: http://arxiv.org/abs/2606.21990v1
- Date: Sat, 20 Jun 2026 11:02:29 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 15:10:41.645108
- Title: Adding Robust Code-Switching Capabilities to High Performance Multilingual ASR
- Title(参考訳): 高性能多言語ASRへのロバストコードスイッチ機能の追加
- Authors: Enes Yavuz Ugan, Alexander Waibel,
- Abstract要約: 言語間の形態的変化を含む複雑なコードスイッチングを扱うために、モデルを拡張します。
提案手法は、コードスイッチされた単語の書き起こし誤りを32.87%削減し、WER全体の5.31%改善し、モノリンガル性能を維持した。
- 参考スコア(独自算出の注目度): 61.09730719510015
- License:
- Abstract: Code-switching (CSW) remains challenging for large multi-lingual ASR systems in real-world deployment. While fine-tuning on synthetic CSW data is possible, it generally degrades strong monolingual baselines. Our goal is to preserve these capabilities while extending models to handle complex code-switching, including morphological variations across languages. We propose Bayesian factorized adaptation, which learns to efficiently integrate switching-relevant knowledge into strong pretrained models without overwriting existing capabilities. Requiring only a small amount of synthetic data, our approach reduces transcription errors by 32.87% on code-switched words while improving overall WER by 5.31%, all while maintaining mono-lingual performance. Our results demonstrate that effective CSW adaptation depends more on knowledge integration than data complexity.
- Abstract(参考訳): コードスイッチング(CSW)は、現実のデプロイメントにおいて、大規模な多言語ASRシステムでは依然として困難である。
合成CSWデータの微調整は可能であるが、強い単言語ベースラインを劣化させるのが一般的である。
私たちのゴールは、言語間の形態的変化を含む複雑なコードスイッチングを扱うようにモデルを拡張しながら、これらの機能を維持することです。
本稿では,既存の能力を上書きすることなく,スイッチング関連知識を強い事前学習モデルに効率的に統合するベイズ分解適応法を提案する。
少量の合成データしか必要とせず、コードスイッチされた単語の書き起こし誤りを32.87%削減し、全体のWERを5.31%改善し、モノリンガル性能を維持した。
以上の結果から,効果的なCSW適応はデータ複雑性よりも知識統合に依存していることが示された。
関連論文リスト
- Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers [32.12010196874932]
CSR-L(Code-Switching Retrieval benchmark-Lite)を導入し、人間のアノテーションを用いてデータセットを構築し、混合言語クエリの真の自然性を捉える。
コードスイッチングが基本的なパフォーマンスボトルネックとして機能し、堅牢な多言語モデルの有効性を低下させることを示す。
論文 参考訳(メタデータ) (2026-04-19T22:01:41Z) - Beyond Quantity: Trajectory Diversity Scaling for Code Agents [51.71414642763219]
Trajectory Diversity Scalingは、コードエージェントのためのデータ合成フレームワークである。
TDScalingは、(1)実際のサービスの論理的依存関係をキャプチャするBusiness Clusterメカニズム、(2)軌道コヒーレンスを強制するブループリント駆動のマルチエージェントパラダイム、(3)ロングテールシナリオを指向する適応的な進化メカニズムの4つの革新を統合しています。
論文 参考訳(メタデータ) (2026-02-03T07:43:03Z) - Adapting Where It Matters: Depth-Aware Adaptation for Efficient Multilingual Speech Recognition in Low-Resource Languages [11.808922632545874]
我々は多言語自動音声認識モデルを分析し、U字型適応パターンを明らかにする。
本稿では,各レイヤの役割に応じて適応能力を割り当てる,深層対応モデル適応フレームワークDAMAを提案する。
Damaは、最先端の精度とトレーニング可能なパラメータを80%削減し、極端なデータ不足下で29%のエラー削減を実現し、ベースラインよりもメモリ、トレーニング時間、計算効率を大幅に改善する。
論文 参考訳(メタデータ) (2026-02-01T04:18:31Z) - Balancing Accuracy and Efficiency in Multi-Turn Intent Classification for LLM-Powered Dialog Systems in Production [6.459396785817196]
本稿では,本システムにおけるスケーラビリティ向上と遅延低減のための新しい2つのアプローチを提案する。
まず,タスクの複雑さを低減し,マルチターン対話におけるパフォーマンスを向上させるために,意図ラベルを簡略化するシンボリックチューニングを提案する。
第2に,データ拡張と擬似ラベル作成にLLMを用いるフレームワークであるC-LARAを提案する。
論文 参考訳(メタデータ) (2024-11-19T07:48:35Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - Code-Switching Text Augmentation for Multilingual Speech Processing [36.302629721413155]
音声コンテンツのコードスイッチングは、混合入力を処理するためにASRシステムに強制されている。
近年のASR研究は,多言語データを用いたCS現象の処理におけるE2E-ASRの優位性を示した。
音声CSテキストを人工的に生成し、異なる音声モジュールを改善するためのモノリンガルデータを強化する手法を提案する。
論文 参考訳(メタデータ) (2022-01-07T17:14:19Z) - Arabic Code-Switching Speech Recognition using Monolingual Data [13.513655231184261]
自動音声認識(ASR)におけるコードスイッチングは,グローバル化による重要な課題である。
最近の多言語ASRの研究は、モノリンガルシステムに対する潜在的な改善を示している。
我々は,大規模ASR実験を通じて,ASRの多言語モデリングに関連する重要な課題について検討した。
論文 参考訳(メタデータ) (2021-07-04T08:40:49Z) - Data Augmentation for End-to-end Code-switching Speech Recognition [54.0507000473827]
コードスイッチングデータ拡張のための3つの新しいアプローチが提案されている。
既存のコードスイッチングデータによる音声スプライシングと、単語翻訳や単語挿入によって生成された新しいコードスイッチングテキストによるTS。
200時間のMandarin-Britishコードスイッチングデータセットの実験では、コードスイッチングASRを個別に大幅に改善した。
論文 参考訳(メタデータ) (2020-11-04T07:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。