論文の概要: Data Scale, Not Latency, Shapes Cross-Lingual Encoder Transfer in Streaming ASR
- arxiv url: http://arxiv.org/abs/2606.24169v1
- Date: Tue, 23 Jun 2026 05:51:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.795561
- Title: Data Scale, Not Latency, Shapes Cross-Lingual Encoder Transfer in Streaming ASR
- Title(参考訳): データスケールはレイテンシではなく,ストリーミングASRにおける言語間エンコーダ転送を形作る
- Authors: Nenad Banfic,
- Abstract要約: ストリーミング音声認識モデルを新しい言語に適応させるには、2つの妥当なウォームスタートを選択する必要がある。
一般的な直観は、多言語エンコーダは低データにおいて最も役立ちます。
どの程度のメリットが持続するか、ストリーミングレイテンシの厳しさが増幅されるか、デプロイメントの量子化を生き残るかは、はっきりしない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapting a streaming speech recognition model to a new language requires choosing between two plausible warm starts: a multilingual (ML) encoder or an English-only (EN) encoder. The common intuition is that the multilingual encoder should help most at low data, but it is unclear how long that advantage persists, whether tight streaming latency amplifies it, and whether it survives deployment quantization. We answer these questions with a controlled sweep of a 0.6 B-parameter cache-aware FastConformer transducer across eight European languages, up to five target-language data scales (100 h to 2500 h), three streaming tiers plus offline decoding, and up to four public test sets. The main result is that multilingual initialization is a data-limited advantage, not a latency-limited one. On FLEURS at 160 ms, the mean EN-ML word error rate (WER) gap falls from +4.21 percentage points (pp) at 100 h to +0.20 pp at 2500 h; a power-law fit summarizes this decay, with each doubling of target-language data roughly halving the remaining advantage. Across the three streaming tiers, the across-language mean EN-ML gap is approximately stable at each scale from 100 to 1000 h, and is near zero by 2500 h. Finally, 4-bit weight-only encoder quantization at the matched 560 ms streaming tier reduces the encoder footprint by about 3x, with an average FLEURS WER increase of about 0.5 pp. The resulting guideline is simple: use multilingual initialization in low-data regimes, treat the choice as effectively irrelevant at large data, and make latency and quantization decisions independently.
- Abstract(参考訳): ストリーミング音声認識モデルを新しい言語に適応させるには、多言語(ML)エンコーダと英語(EN)エンコーダの2つの有効なウォームスタートを選択する必要がある。
一般的な直感では、マルチリンガルエンコーダは、低データにおいて最も役立ちますが、そのメリットがどれくらい長く持続するか、ストリーミング遅延がそれを増幅するかどうか、デプロイメントの量子化を生き残るかは定かではありません。
これらの質問には,最大5つのターゲット言語データスケール(100hから2500h),3つのストリーミングティアとオフラインデコーディング,最大4つのパブリックテストセットを対象とする,0.6Bパラメータキャッシュ対応のFastConformerトランスデューサをコントロールして答える。
主な結果は、マルチ言語の初期化がデータ制限の利点であり、レイテンシ制限の利点ではないということだ。
160msのFLEURSでは、平均EN-MLワードエラー率(WER)ギャップは100hの+4.21ポイント(pp)から2500hの+0.20ppに減少する。
3つのストリーミング層全体では、言語間の平均EN-MLギャップは100から1000hのスケールでほぼ安定であり、2500hのゼロに近い。
最後に、一致した560msのストリーミング層での4ビットの重みのみのエンコーダ量子化により、エンコーダのフットプリントが約3倍減少し、FLEURS WERの平均は0.5ppである。
結果として得られるガイドラインは単純で、低データのレシエーションで多言語の初期化を使い、選択を大規模データでは効果的に無関係として扱い、レイテンシと量子化の決定を独立して行う。
関連論文リスト
- TRADE: Transducer-Augmented Decoder for Speech LLM [52.69726809996728]
音声大言語モデル(Speech LLM)は、ストリーミング推論の原理的なメカニズムを欠いている。
音声エンコーダを共有するトランスデューサブランチでマルチモーダルLLMを増強するTRADE TRansducer-Augmented DEcoderを提案する。
3つの設計上の選択により、システムは正確で、ストリーミング可能で、長い形にすることができる。
論文 参考訳(メタデータ) (2026-06-07T07:15:34Z) - Omnilingual SONAR: Cross-Lingual and Cross-Modal Sentence Embeddings Bridging Massively Multilingual Text and Speech [61.759910921200834]
言語間の文エンコーダは通常、数百の言語をカバーしている。
我々はOmniSONARを紹介した。OmniSONARは全言語、言語横断、言語横断の文埋め込みモデルである。
論文 参考訳(メタデータ) (2026-03-17T14:47:35Z) - Canary-1B-v2 & Parakeet-TDT-0.6B-v3: Efficient and High-Performance Models for Multilingual ASR and AST [39.38800105667601]
Canary-1B-v2は、自動音声認識(ASR)と音声テキスト翻訳(AST)のための高速で堅牢な多言語モデルである
FastConformerエンコーダとTransformerデコーダで構築され、主にヨーロッパ25言語をサポートしている。
動的データバランシングを伴う2段階の事前学習および微調整プロセスとnGPTエンコーダを用いた実験について述べる。
論文 参考訳(メタデータ) (2025-09-17T16:08:46Z) - Towards Robust Speech Representation Learning for Thousands of Languages [77.2890285555615]
自己教師付き学習(SSL)は、ラベル付きデータの必要性を減らすことで、音声技術をより多くの言語に拡張するのに役立つ。
我々は4057言語にまたがる100万時間以上のデータに基づいて訓練された、ユニバーサル音声のための言語横断言語であるXEUSを提案する。
論文 参考訳(メタデータ) (2024-06-30T21:40:26Z) - Leveraging Timestamp Information for Serialized Joint Streaming
Recognition and Translation [51.399695200838586]
本稿では,マルチ・ツー・ワン・ワン・マン・ワン・ツー・マンの同時生成が可能なストリーミングトランスフォーマー・トランスデューサ(T-T)モデルを提案する。
実験では,1個のデコーダで1対1のジョイント出力を初めて生成し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-23T11:00:27Z) - Multilingual Neural Machine Translation with Deep Encoder and Multiple
Shallow Decoders [77.2101943305862]
本稿では,複数の浅層デコーダ(DEMSD)を持つディープエンコーダを提案する。
2層デコーダを用いたDEMDモデルは、翻訳品質の低下のない標準トランスモデルと比較して平均1.8倍の高速化が得られる。
論文 参考訳(メタデータ) (2022-06-05T01:15:04Z) - Low-Latency Sequence-to-Sequence Speech Recognition and Translation by
Partial Hypothesis Selection [15.525314212209562]
チャンクベースインクリメンタル推論のための3つの遅延低減手法を提案する。
提案手法は低遅延音声翻訳にも適用可能であることを示す。
論文 参考訳(メタデータ) (2020-05-22T13:42:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。