論文の概要: Overcoming Decoder Inconsistencies in Whisper for Dravidian and Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2606.09535v1
- Date: Mon, 08 Jun 2026 14:18:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.183952
- Title: Overcoming Decoder Inconsistencies in Whisper for Dravidian and Low-Resource Languages
- Title(参考訳): ドラビディアンおよび低リソース言語用ウィスパーにおけるデコーダの不整合の克服
- Authors: Chowdam Venkata Kumar, Kumud Tripathi, Pankaj Wasnik,
- Abstract要約: ドラヴィダ語は単語が長く,語彙の多様性が高く,繰り返しが低いことが示され,希少なトークン分布と頻繁な文字レベルの置換誤りが生じた。
注意源を適応的にバランスさせる重み付き注意(Weighted-Attention)と、トークン整合性を改善するために中間予測をリジェクションするセルフコンディショニング(Self-Conditioning)という2つのデコーダレベルの拡張を導入する。
- 参考スコア(独自算出の注目度): 11.118322085806712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual ASR models such as Whisper perform well on high-resource languages but exhibit substantially higher Word Error Rates (WER) for Dravidian languages compared to Indo-Aryan ones. Through linguistic and dataset analysis, we show that Dravidian languages have longer words, higher vocabulary diversity, and lower repetition, resulting in sparse token distributions and frequent character-level substitution errors. Baseline fine-tuning further reveals decoder imbalance between self-attention (linguistic context) and cross-attention (acoustic cues). Although synthetic token-repetition experiments indicate potential gains, they are impractical. Motivated by these observations, we introduce two decoder-level enhancements: Weighted-Attention, which adaptively balances attention sources, and Self-Conditioning, which reinjects intermediate predictions to improve token consistency. Experiments demonstrate consistent WER reductions for low-resource and agglutinative languages.
- Abstract(参考訳): Whisper のような多言語 ASR モデルは高ソース言語でよく機能するが、インド・アーリア語と比較してドラヴィダ語ではワード誤り率 (WER) がかなり高い。
言語的およびデータセット分析により,ドラヴィダ語は単語が長く,語彙の多様性が高く,反復性が低く,トークンの分散や文字レベルの置換ミスが頻発することがわかった。
ベースラインの微調整により、自己意図(言語的文脈)と相互意図(音響的手がかり)の間のデコーダの不均衡がさらに明らかになる。
合成トークン反復実験は潜在的な利得を示すが、それらは実用的ではない。
注意源を適応的にバランスさせる重み付き注意(Weighted-Attention)と、トークンの整合性を改善するために中間予測をリジェクションするセルフコンディショニング(Self-Conditioning)という2つのデコーダレベルの拡張を導入する。
実験では、低リソースおよび凝集性言語に対する一貫したWER削減を示す。
関連論文リスト
- Beyond Input Understanding: Diagnosing Multilingual Mathematical Reasoning with Directed Acyclic Trace Graphs [54.72295694649798]
大規模な推論モデル (LRM) は、英語で強力な数学的推論性能を達成するが、多くの低級言語や中級言語では信頼性が低い。
モデルの推論言語を制御することは、精度を大幅に低下させることを示し、言語が推論実行自体に影響を及ぼすことを示唆する。
12言語にわたるQwen3シリーズの実験では、英語以外の推論ではアンカーカバレッジが減少し、依存関係の忠実度が低下することが多い。
論文 参考訳(メタデータ) (2026-05-26T21:41:52Z) - Translation or Recitation? Calibrating Evaluation Scores for Machine Translation of Extremely Low-Resource Languages [39.985923582735936]
FREDの難易度はF(F)、Retrieval Proxy(R)、Pre-training Exposure(E)、Corpus Diversity(D)を含む。
これらの測定結果から、結果のばらつきの大部分は、モデル能力よりも、列車とテストの重複と事前訓練による露光によって説明されていることが分かる。
論文 参考訳(メタデータ) (2026-03-26T09:20:17Z) - SITA: Learning Speaker-Invariant and Tone-Aware Speech Representations for Low-Resource Tonal Languages [11.655315357810371]
SITAは、事前訓練されたwav2vecスタイルのエンコーダに対して、話者不変性とトーン認識を強制する軽量な適応レシピである。
音色を効果的に表現できない多言語エンコーダであるHmongを主眼として評価した。
論文 参考訳(メタデータ) (2026-01-14T00:42:27Z) - What Drives Cross-lingual Ranking? Retrieval Approaches with Multilingual Language Models [0.19116784879310025]
リソース、スクリプト、埋め込みモデルにおける弱い言語間セマンティックアライメントの相違により、言語間情報検索は困難である。
既存のパイプラインは、しばしば翻訳と単言語検索に依存し、計算オーバーヘッドとノイズ、パフォーマンスを追加する。
この研究は、文書翻訳、事前訓練されたエンコーダによる多言語密集検索、単語、フレーズ、クエリー文書レベルのコントラスト学習、および3つのベンチマークデータセットにおけるクロスエンコーダの再ランク付けという、4つの介入タイプを体系的に評価する。
論文 参考訳(メタデータ) (2025-11-24T17:17:40Z) - Beyond WER: Probing Whisper's Sub-token Decoder Across Diverse Language Resource Levels [6.627057618324123]
本稿では,Whisperの多言語デコーダの詳細な解析を紹介する。
提案手法は,ビーム探索経路をトレースし,サブトークン推定とその関連確率を推定する。
リソース言語が低いほど、これらのメトリクスは悪化するが、サブトークンの使用ではクラスタリングパターンが異なる。
論文 参考訳(メタデータ) (2025-09-29T21:20:05Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training [58.696660064190475]
コンテクスト内の異なる言語間を交互に交換するコードスイッチの存在が、多言語機能の鍵であることに気付きました。
事前学習における言語アライメントのためのコードスイッチングのパワーをよりよく探求するために,合成コードスイッチングの戦略について検討する。
論文 参考訳(メタデータ) (2025-04-02T15:09:58Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z) - Detecting Fine-Grained Cross-Lingual Semantic Divergences without
Supervision by Learning to Rank [28.910206570036593]
この研究は、細粒度のセマンティックな違いの予測とアノテーションを改善する。
本稿では,多言語BERTモデルの学習方法として,様々な粒度の合成発散例をランク付けする手法を提案する。
ランク付けの学習は、強い文レベルの類似性モデルよりも正確に、きめ細かい文レベルの発散を検出するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T21:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。