論文の概要: RealMath-Eval: Why SOTA Judges Struggle with Real Human Reasoning
- arxiv url: http://arxiv.org/abs/2606.10254v1
- Date: Mon, 08 Jun 2026 23:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.230057
- Title: RealMath-Eval: Why SOTA Judges Struggle with Real Human Reasoning
- Title(参考訳): リアル・マス・エバル:SOTA判事がリアル・ヒューマン・推論で争う理由
- Authors: Yiteng Mao, Kenan Xu, Yijia Lyu, Wenhao Li, Jianlong Chen, Xiangfeng Wang,
- Abstract要約: textbfRealMath-Evalは,高校生による実世界224件の試験結果の厳密な注釈付きベンチマークである。
我々の評価は、最先端のLLM審査員でさえ、この課題にかなり苦労していることを示している。
合成誤差は、予測可能で低次元の線形部分空間に「構造的崩壊」に苦しむのに対し、ヒューマンエラーはより多様なエラー空間を形成する。
- 参考スコア(独自算出の注目度): 13.603369973603343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) have achieved near-perfect performance in \emph{solving} high-school mathematics, their ability to \emph{evaluate} the diverse reasoning processes of real human students remains under-examined. To bridge this gap, we introduce \textbf{RealMath-Eval}, a rigorously annotated benchmark of 224 real-world exam responses from high schools. Our initial evaluation reveals that even state-of-the-art LLM judges struggle significantly on this task, exhibiting a high Mean Squared Error ($\sim$2.96) against expert human grading. To probe a plausible explanation, we contrast this performance with a control setting where the same judges evaluate synthetic LLM-generated solutions. We identify a stark ``Evaluation Gap'': judges are considerably more accurate and consistent on synthetic text (MSE $\sim$1.17) but struggle to generalize to authentic student reasoning. Through semantic embedding analysis, we find that synthetic errors suffer from a ``structural collapse'' into predictable, low-dimensional linear subspaces, whereas human errors form a more diverse error space. Furthermore, generative probability probes suggest that human reasoning involves significantly higher information-theoretic surprisal, indicating that student reasoning transitions are more out-of-distribution for current models. Finally, we find that surface-level style transfer fails to close this gap. Our findings suggest that current LLM evaluation pipelines relying heavily on synthetic data may not adequately capture the diversity of authentic student mathematical reasoning.
- Abstract(参考訳): 大規模言語モデル (LLMs) は, 高校数学におけるほぼ完全な性能を達成しているが, 実際の学生の多様な推論過程を評価できる能力は, いまだ十分に評価されていない。
このギャップを埋めるために,高校の224件の実世界試験結果の厳密な注釈付きベンチマークである \textbf{RealMath-Eval} を紹介した。
我々の最初の評価では、最先端のLLM判事でさえこのタスクにかなり苦労し、熟練した人間の格付けに対して高い平均二乗誤差($2.96)を示しています。
提案手法は,LLM生成した合成解を同一の審査員が評価する制御条件と対比する。
審査員は、合成テキスト(MSE $\sim$1.17)でかなり正確で一貫性があるが、真正な学生推論への一般化に苦慮している。
セマンティック埋め込み分析により、合成エラーは予測可能で低次元の線形部分空間に「構造的崩壊」に苦しむのに対し、ヒューマンエラーはより多様なエラー空間を形成する。
さらに、生成的確率プローブは、人間の推論は情報理論的な仮定よりもはるかに高い情報を含むことを示唆し、学生の推論遷移が現在のモデルにとってよりアウト・オブ・ディストリビューションであることが示唆している。
最後に、表面レベルの転送がこのギャップを埋めることに失敗する。
以上の結果から, 現在のLLM評価パイプラインは, 学生の数学的推論の多様性を十分に捉えていない可能性が示唆された。
関連論文リスト
- LiveMathematicianBench: A Live Benchmark for Mathematician-Level Reasoning with Proof Sketches [61.30693283718321]
研究レベルの数学的推論のための動的多重選択ベンチマークであるLiveMathematicianBenchを提案する。
新たに発表された定理で評価を基礎づけることで、記憶されたパターンを超えた現実的なテストベッドを提供する。
このパイプラインは、高レベルな証明戦略を使用して、妥当だが無効な解選択を構築する。
論文 参考訳(メタデータ) (2026-04-02T08:22:17Z) - PS$^2$: Parameterized Control for Fine-Grained Student Proficiency Simulation [37.112666030892115]
学生シミュレーション (PS$2$) は、教師なしおよびパラメータ化されたモデルレベルのフレームワークであり、異なる習熟度を持つ生徒をシミュレートする。
PS$2$は、既存のベースラインに比べて細粒度で一貫した習熟度シミュレーションを実現する。
論文 参考訳(メタデータ) (2026-01-31T18:27:56Z) - From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics [79.81905350372067]
我々は文脈的数学的推論を通してギャップを研究する。
AIMEとMATH-500の問題を2つのコンテキスト設定に再利用するベンチマークであるContextMATHを紹介する。
オープンソースモデルはSGとCSで13、34ポイント減少し、プロプライエタリモデルは13、20ポイント減少している。
論文 参考訳(メタデータ) (2026-01-30T14:56:04Z) - Take Out Your Calculators: Estimating the Real Difficulty of Question Items with LLM Student Simulations [36.23612429926861]
実世界の学生を対象とした数学質問の難易度を評価するため,オープンソースの大規模言語モデル(LLM)の予測値について検討した。
我々は,4年生,8年生,12年生の「教室」をシミュレートし,LLMを様々な習熟度を持つロールプレイングの学生に促す。
我々は,4級,8級,12級の相関関係を0.75,0.76,0.82まで観測した。
論文 参考訳(メタデータ) (2026-01-15T00:25:01Z) - Solving Inequality Proofs with Large Language Models [42.667163027148916]
不等式証明は様々な科学・数学分野において不可欠である。
これにより、大きな言語モデル(LLM)の需要が高まるフロンティアとなる。
我々は、Olympiadレベルの不平等を専門家が計算したデータセットであるIneqMathをリリースした。
論文 参考訳(メタデータ) (2025-06-09T16:43:38Z) - JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
LLM(Large Language Models)の厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。
JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。
実験の結果, (i) LLMは人体平均値よりも同等かそれ以上に機能するが, 人体天井よりも著しく低下することがわかった。
論文 参考訳(メタデータ) (2025-01-24T15:49:10Z) - Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。
本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。
これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文 参考訳(メタデータ) (2024-12-19T18:51:30Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。