論文の概要: mmPISA-bench: Do LLMs Reason Equally Well Across 43 Languages?
- arxiv url: http://arxiv.org/abs/2606.07069v1
- Date: Fri, 05 Jun 2026 09:09:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.658233
- Title: mmPISA-bench: Do LLMs Reason Equally Well Across 43 Languages?
- Title(参考訳): mmPISA-bench: LLMは43言語で同等に機能するのか?
- Authors: Yerzhan Sapenov, Jaromir Savelka,
- Abstract要約: 我々は,国際学生評価プログラム(OECD Programme for International Students Assessment, PISA)から派生した,コンパクトな多言語推論ベンチマークであるmmPISA-benchを紹介する。
ベンチマークは、正しく答えるために推論を必要とする25の多重選択質問で構成されている。
各質問は43の言語への公式の人間翻訳で提供され、機械翻訳された言語を補完する。
- 参考スコア(独自算出の注目度): 0.11458853556386796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce mmPISA-bench, a compact high-quality multilingual reasoning benchmark derived from the OECD Programme for International Student Assessment (PISA). The benchmark consists of 25 multiple-choice questions that require reasoning in order to be answered correctly. Each question is provided in official human translations to 43 languages and complemented with machine-translated counterparts (i.e., 2,150 data points in total). We evaluate two mainstream proprietary LLMs across languages, reasoning effort levels, and translation types in terms of their ability to answer the questions correctly. Our results show that modern LLMs can reason effectively across all evaluated languages, achieve accuracy comparable to human test-takers, with some performance variations across covered languages. We further find that machine-translated questions do not degrade accuracy relative to official human translations which suggests that high-quality machine translation (synthetic data) might often be adequate for large-scale multilingual reasoning evaluations where official translations are not available. Finally, we analyze token usage and related inference cost and find that LLMs usage in some languages is simultaneously more expensive and less accurate.
- Abstract(参考訳): 我々は,国際学生評価プログラム(OECD Programme for International Students Assessment, PISA)から派生した,コンパクトな多言語推論ベンチマークであるmmPISA-benchを紹介する。
ベンチマークは、正しく答えるために推論を必要とする25の多重選択質問で構成されている。
各質問は43の言語への公式な人文翻訳で提供され、機械翻訳された言語(合計2150のデータポイント)を補完する。
言語間での2つの主要なプロプライエタリなLLM, 推論作業レベル, 翻訳タイプを, 質問に正しく答える能力の観点から評価した。
これらの結果から,現代のLLMは,すべての評価言語に対して効果的に理性性を持たせることができ,人間のテストテイカーに匹敵する精度を達成できることがわかった。
さらに, 機械翻訳による質問は, 公式翻訳と比較して精度が低下せず, 公式翻訳ができない大規模多言語推論評価には, 高品質な機械翻訳(合成データ)が適している可能性が示唆された。
最後に、トークンの使用状況と関連する推論コストを分析し、いくつかの言語におけるLCMの使用状況がより高価で精度が低いことを確認する。
関連論文リスト
- PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [85.78821098963607]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。