Fugu-MT 論文翻訳(概要): mmPISA-bench: Do LLMs Reason Equally Well Across 43 Languages?

論文の概要: mmPISA-bench: Do LLMs Reason Equally Well Across 43 Languages?

arxiv url: http://arxiv.org/abs/2606.07069v1
Date: Fri, 05 Jun 2026 09:09:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-08 14:33:29.658233
Title: mmPISA-bench: Do LLMs Reason Equally Well Across 43 Languages?
Title（参考訳）: mmPISA-bench: LLMは43言語で同等に機能するのか?
Authors: Yerzhan Sapenov, Jaromir Savelka,
Abstract要約: 我々は,国際学生評価プログラム(OECD Programme for International Students Assessment, PISA)から派生した,コンパクトな多言語推論ベンチマークであるmmPISA-benchを紹介する。ベンチマークは、正しく答えるために推論を必要とする25の多重選択質問で構成されている。各質問は43の言語への公式の人間翻訳で提供され、機械翻訳された言語を補完する。
参考スコア（独自算出の注目度）: 0.11458853556386796
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce mmPISA-bench, a compact high-quality multilingual reasoning benchmark derived from the OECD Programme for International Student Assessment (PISA). The benchmark consists of 25 multiple-choice questions that require reasoning in order to be answered correctly. Each question is provided in official human translations to 43 languages and complemented with machine-translated counterparts (i.e., 2,150 data points in total). We evaluate two mainstream proprietary LLMs across languages, reasoning effort levels, and translation types in terms of their ability to answer the questions correctly. Our results show that modern LLMs can reason effectively across all evaluated languages, achieve accuracy comparable to human test-takers, with some performance variations across covered languages. We further find that machine-translated questions do not degrade accuracy relative to official human translations which suggests that high-quality machine translation (synthetic data) might often be adequate for large-scale multilingual reasoning evaluations where official translations are not available. Finally, we analyze token usage and related inference cost and find that LLMs usage in some languages is simultaneously more expensive and less accurate.
Abstract（参考訳）: 我々は,国際学生評価プログラム(OECD Programme for International Students Assessment, PISA)から派生した,コンパクトな多言語推論ベンチマークであるmmPISA-benchを紹介する。ベンチマークは、正しく答えるために推論を必要とする25の多重選択質問で構成されている。各質問は43の言語への公式な人文翻訳で提供され、機械翻訳された言語(合計2150のデータポイント)を補完する。言語間での2つの主要なプロプライエタリなLLM, 推論作業レベル, 翻訳タイプを, 質問に正しく答える能力の観点から評価した。これらの結果から,現代のLLMは,すべての評価言語に対して効果的に理性性を持たせることができ,人間のテストテイカーに匹敵する精度を達成できることがわかった。さらに, 機械翻訳による質問は, 公式翻訳と比較して精度が低下せず, 公式翻訳ができない大規模多言語推論評価には, 高品質な機械翻訳(合成データ)が適している可能性が示唆された。最後に、トークンの使用状況と関連する推論コストを分析し、いくつかの言語におけるLCMの使用状況がより高価で精度が低いことを確認する。

論文の概要: mmPISA-bench: Do LLMs Reason Equally Well Across 43 Languages?

関連論文リスト