論文の概要: Evaluating Large Language Models for Hausa and Fongbe Machine Translation: Benchmarks, Failures, and Metric Reliability
- arxiv url: http://arxiv.org/abs/2606.22269v1
- Date: Sat, 20 Jun 2026 23:23:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 21:42:27.522841
- Title: Evaluating Large Language Models for Hausa and Fongbe Machine Translation: Benchmarks, Failures, and Metric Reliability
- Title(参考訳): HausaとFongbeの機械翻訳のための大規模言語モデルの評価:ベンチマーク、失敗、メトリクス信頼性
- Authors: Mahounan Pericles Adjovi, Roald Eiselen, Prasenjit Mitra,
- Abstract要約: 本稿では,現在の大言語モデル (LLM) の翻訳品質について検討する。
我々は、これらの低リソース言語に対する人間の判断を確実に反映しているかどうかを評価する。
- 参考スコア(独自算出の注目度): 12.074798555934855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the translation quality of current large language models (LLMs) for English-to-Hausa and English-to-Fongbe - two typologically distinct West African languages from the Afroasiatic and Niger-Congo families respectively - and evaluate whether standard automatic metrics reliably reflect human judgment for these low-resource languages. We evaluate four models (GPT-4o Mini, Claude Sonnet 4, Gemini 2.5 Flash, and Qwen2.5-7B) at progressive scales (500 to 10,000 sentences) using automatic metrics (BLEU, chrF++, TER, COMET, BERTScore) validated against native-speaker judgment. Our results reveal three key findings. First, translation quality varies substantially by language: Hausa achieves acceptable quality (human scores 4.0-4.5/5) while Fongbe achieves poor quality (1.0-2.2/5), with a consistent 3x BLEU gap across all systems. Second, model rankings differ by language - Gemini leads for Fongbe while GPT-4o leads for Hausa by human evaluation - indicating that performance on one low-resource African language does not predict performance on another. Third, metric-human correlation varies dramatically: perfect rank correlation for Fongbe (rho=1.0) but weak correlation for Hausa (rho=0.5), where human evaluators preferred GPT-4o despite all automatic metrics ranking Claude first. We further show that neural metrics like BERTScore exhibit embedding collapse (within-language similarity >0.99) for both languages, limiting their ability to differentiate translation quality. Based on these findings, we recommend multi-metric evaluation for low-resource African languages, with particular caution when interpreting neural metrics. We establish that minimum sample sizes of n=2,500 sentences are required for stable system rankings, as smaller samples produced artifact findings that reversed at scale.
- Abstract(参考訳): 本研究は,アフロアシア語族とニジェーコンゴ語族とをそれぞれ区別した西アフリカの2つの言語に対して,現在の大言語モデル(LLM)の翻訳品質について検討し,これらの低リソース言語に対する人間の判断を確実に反映しているかどうかを検証した。
GPT-4o Mini, Claude Sonnet 4, Gemini 2.5 Flash, Qwen2.5-7B) の4つのモデルを, 話者の判断に対する自動測定値(BLEU, chrF++, TER, COMET, BERTScore)を用いて, 段階的に評価した。
以上の結果から3つの重要な知見が得られた。
Hausaは許容できる品質(人間のスコア4.0-4.5/5)を達成し、Fongbeは低い品質(1.0-2.2/5)を達成し、全てのシステムに3倍のBLEUギャップがある。
第二に、モデルランキングは言語によって異なり、GeminiはFongbeを、GPT-4oは人間による評価でHausaをリードしている。
第3に,Fongbe(rho=1.0),Hausa(rho=0.5),Hausa(rho=0.5)の完全ランク相関。
さらに、BERTScoreのようなニューラルネットワークメトリクスは、両方の言語に埋め込み崩壊(言語間の類似度>0.99)を示し、翻訳品質を区別する能力を制限することを示した。
これらの知見に基づき、低リソースアフリカ言語に対するマルチメトリック評価を推奨し、特に神経メトリクスを解釈する場合に注意する。
我々は,n=2,500文の最小サンプルサイズがシステムランキングの安定に必要であることを確認した。
関連論文リスト
- Benchmarking Speech-to-Speech Translation Models [55.00303727199927]
音声音声翻訳(S2ST)は急速に進歩しているが、オフライン評価には統一されたプロトコルが欠けている。
8次元にわたる46のメトリクスを統合するベンチマークフレームワークを導入する。
FLEURSとCVSSから1,248のモデル言語構成でデプロイする。
論文 参考訳(メタデータ) (2026-06-02T07:01:33Z) - Can Embedding Similarity Predict Cross-Lingual Transfer? A Systematic Study on African Languages [12.074798555934855]
低リソースのアフリカ言語のためのNLPシステムを構築するためには、言語間移動が不可欠である。
816回の移動実験において,5つの埋め込み類似度指標を系統的に評価した。
その結果,コサインギャップと検索に基づく指標が転送成功を確実に予測できることが判明した。
論文 参考訳(メタデータ) (2026-01-06T16:39:28Z) - How Good is Zero-Shot MT Evaluation for Low Resource Indian Languages? [35.368257850926184]
Assamese、Kannada、Maithili、Punjabiといった低リソースのインドの言語に焦点を当てたゼロショット評価に重点を置いている。
ゼロショット性能を示すことが知られている学習指標であっても、人間のアノテーションとKendall TauとPearsonの相関は0.32と0.45である。
論文 参考訳(メタデータ) (2024-06-06T09:28:08Z) - Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。