論文の概要: Contrastive Training with LLM-generated Near-Misses for Robust Code-Switching Speech Recognition
- arxiv url: http://arxiv.org/abs/2606.06985v1
- Date: Fri, 05 Jun 2026 07:24:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.609871
- Title: Contrastive Training with LLM-generated Near-Misses for Robust Code-Switching Speech Recognition
- Title(参考訳): LLMを用いたロバスト符号変換音声認識のための比較学習
- Authors: Tung X. Nguyen, Hieu Minh Truong, Giang-Son Nguyen, Nhu Vo, Wray Buntine, Dung D. Le,
- Abstract要約: CSクリティカル領域における認識を改善するために,POI(Point-of-Interest)対応のコントラスト学習フレームワークを提案する。
CS-FLEURS (cmn-eng) と ViMedCSS (vie-eng) の実験は、一般およびCS対応のエラーレートにおいて、2%以上の一貫した減少を示した。
- 参考スコア(独自算出の注目度): 4.573909205189436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-switching (CS), the alternation between multiple languages within a single utterance, remains challenging for Automatic Speech Recognition (ASR). To address this issue, we propose a Point-of-Interest (POI)-aware contrastive training framework that improves recognition at CS-critical regions. We first identify CS spans by adopting POI detection method from literature, then construct acoustically plausible near-miss hypotheses by perturbing POIs in ASR N-best outputs and expanding candidates with a large language model. Hard but plausible negatives are retained through filtering with acoustic, phonemic, and textual constraints. Finally, we fine-tune Whisper-small with LoRA using a POI-weighted cross-entropy anchor objective together with a multi-negative contrastive ranking loss. Experiments on CS-FLEURS (cmn-eng) and ViMedCSS (vie-eng) show consistent reductions of over 2% in both general and CS-aware error rates compared to standard LoRA fine-tuning.
- Abstract(参考訳): Code-Switching (CS) は、1つの発話内で複数の言語間の交替を行うが、自動音声認識 (ASR) では依然として困難である。
この問題に対処するために,CSクリティカル領域での認識を改善するために,POI(Point-of-Interest)対応のコントラスト学習フレームワークを提案する。
まず,文献からのPOI検出手法を採用し,ASR N-best出力にPOIを摂動させ,大きな言語モデルで候補を拡大することにより,音響的に近似可能なニアミス仮説を構築し,CSスパンを同定する。
硬いが確実な負は、音響、音韻、テキストの制約によるフィルタリングによって保持される。
最後に,POI重み付きクロスエントロピーアンカーを用いたLoRAを用いたWhisper-smallの微調整を行った。
CS-FLEURS (cmn-eng) と ViMedCSS (vie-eng) の実験では、通常のLoRAファインチューニングと比較して、一般およびCS対応のエラーレートが2%以上の一貫した低下を示した。
関連論文リスト
- Still Between Us? Evaluating and Improving Voice Assistant Robustness to Third-Party Interruptions [52.45054413627452]
TPI-Trainは、話者認識型ハードネガティブで設計された88Kインスタンスのデータセットで、割り込み処理のための音響キュー優先順位付けを強制する。
TPI-Benchは、割り込み処理戦略を厳格に測定するために設計された総合的な評価フレームワークである。
論文 参考訳(メタデータ) (2026-04-19T10:03:42Z) - Optimizing Conversational Quality in Spoken Dialogue Systems with Reinforcement Learning from AI Feedback [82.70507055599093]
本稿では,マルチターン・チェーン・オブ・ソートモデルとブロックワイド・デュプレックスモデルの両方において,SDSの品質向上のための選好学習に関する最初の体系的研究を行う。
実験により, 単一回帰RLAIFは目標距離を選択的に改善し, 連立多重回帰学習は意味的品質と音声の自然性において一貫した利得が得られることが示された。
論文 参考訳(メタデータ) (2026-01-27T00:55:14Z) - CBF-AFA: Chunk-Based Multi-SSL Fusion for Automatic Fluency Assessment [0.22499166814992438]
AFA(Automatic Fluency Assessment)は、特に非ネイティブ話者の音声リズム、ポーズ、拡散を捉える上で、依然として困難である。
本稿では, 音声, 韻律, 騒々しい音声モデリングにおいて, 相補的な強みのために選択された自己教師付き学習(SSL)モデルを統合するチャンクベースアプローチを提案する。
提案手法では,AvalinguoではF1スコアが2.8,Pearson相関が6.2,F1スコアが4.2,Pearsonポイントが4.0であった。
論文 参考訳(メタデータ) (2025-06-25T08:39:22Z) - AdaCS: Adaptive Normalization for Enhanced Code-Switching ASR [1.8533128809847572]
文内コードスイッチングは,音声認識システムにおいて重要な課題である。
AdaCSは、適応バイアスアテンションモジュールをエンコーダ・デコーダネットワークに統合する正規化モデルである。
実験の結果,AdaCSはベトナムのCS ASR正規化において,従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-01-13T07:27:00Z) - Contrastive and Consistency Learning for Neural Noisy-Channel Model in Spoken Language Understanding [1.07288078404291]
音声認識(ASR)に基づく自然言語理解手法を提案する。
ASRエラーによる書き起こしの不整合を処理するため,ノイズチャネルモデルの改良を行った。
4つのベンチマークデータセットの実験は、Contrastive and Consistency Learning (CCL)が既存のメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-05-23T23:10:23Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR [54.23941663326509]
話者の頻繁な変化は、話者の変化を予測するのを難しくする。
境界対応型直列出力訓練(BA-SOT)を提案する。
オリジナルのSOTと比較して、BA-SOTはCER/UD-CERを5.1%/14.0%削減している。
論文 参考訳(メタデータ) (2023-05-23T06:08:13Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。