論文の概要: KCSAT-ML: Probing Reasoning Models with Nationwide-Cohort Human Difficulty
- arxiv url: http://arxiv.org/abs/2606.10403v2
- Date: Thu, 11 Jun 2026 09:33:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 13:39:59.580534
- Title: KCSAT-ML: Probing Reasoning Models with Nationwide-Cohort Human Difficulty
- Title(参考訳): KCSAT-ML:全国規模の人的困難を伴う推論モデルの提案
- Authors: Sanghee Park, Geewook Kim, Kee-Eung Kim,
- Abstract要約: 数学推論のベンチマークは急増しているが、ほとんどの場合、実際の人間のパフォーマンスに根ざした難易度信号が欠落している。
韓国・カレッジ・スコラスティック能力試験(KCSAT; Suneung)の10年間(2014-2025)の数学であるKCSAT-MLを紹介する。
このベンチマークと、Difficulty-aligned Reasoning Gain(DRG)というスコア・オルソニカルな指標を組み合わせて、モデルのミスは、人間が難しいと感じた項目に、あるいは人間が簡単に見つけた項目に、集中するかどうかを問う。
- 参考スコア(独自算出の注目度): 25.797770168050885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Math reasoning benchmarks have proliferated, yet most lack a per-item difficulty signal grounded in actual human performance. We introduce KCSAT-ML, a decade (2014-2025) of Korean College Scholastic Ability Test (KCSAT; Suneung) mathematics: 664 problems with a 339-item core set carrying official per-item error rates from nationwide cohorts of hundreds of thousands of examinees. We pair the benchmark with Difficulty-aligned Reasoning Gain (DRG): a score-orthogonal metric that asks whether a model's mistakes concentrate on the items humans found hard, or on items humans found easy. Together they expose, across a wide range of VLMs (and LLMs via OCR), three patterns: (i) low-budget accuracy collapses on the high-human-error tail at every model size; (ii) test-time scaling (TTS) raises token use roughly linearly with cohort error rate, while accuracy gains follow a non-monotonic curve; (iii) within a single family, TTS flips between anti-scaling on the hardest items and overthinking on easier ones -- two faces of the same alignment failure. On DRG, models with near-identical accuracy can sit at near-opposite values: one model gets wrong what humans also find hard, while another solves the hardest items yet fails on items humans find easy -- a contrast that aggregate accuracy hides. Our code and dataset builder will be open-sourced at https://github.com/naver-ai/KCSAT-ML.
- Abstract(参考訳): 数学推論のベンチマークは急増しているが、ほとんどの場合、実際の人間のパフォーマンスに根ざした難易度信号が欠落している。
韓国大学学生能力試験(KCSAT; Suneung)の10年(2014-2025年)のKCSAT-MLについて紹介する。
ベンチマークをDifficulty-aligned Reasoning Gain (DRG) と組み合わせる — モデルのミスが、人間が難しいと感じた項目や、人間が簡単に見つけた項目に集中しているかどうかを問うスコアと直交の指標です。
それらは共に、広範囲のVLM(およびOCR経由のLLM)にまたがって、3つのパターンを露呈する。
(i)低予算の精度は、各モデルサイズにおいて、ハイヒューマンエラーテールに崩壊する。
(ii)テストタイムスケーリング(TTS)は、コホート誤差率とほぼ線形にトークンの使用を上昇させ、精度ゲインは非単調曲線に従う。
(iii)1つのファミリーの中で、TSは最も難しいアイテムのスケーリングと、より簡単なもの(同じアライメント障害の2つの顔)のオーバー思考の間を行き来します。
DRGでは、ほぼ同一の精度のモデルは、ほぼ正反対の値に収まる: あるモデルは、人間が困難に感じるものを間違えるが、別のモデルは、人間が容易に見つけられるアイテム上で最も難しいアイテムを解決する。
私たちのコードとデータセットビルダーはhttps://github.com/naver-ai/KCSAT-MLでオープンソース化されます。
関連論文リスト
- From 0-Order Selection to 2-Order Judgment: Combinatorial Hardening Exposes Compositional Failures in Frontier LLMs [4.478347601177043]
複数選択推論ベンチマークは、進行するモデルからの迅速な飽和とデータ汚染という2つの課題に直面している。
ここでは、0階選択を2階論理判断に決定的に変換する形式的なフレームワークであるLogiHardを紹介する。
論文 参考訳(メタデータ) (2026-05-08T05:33:58Z) - Estimating problem difficulty without ground truth using Large Language Model comparisons [4.599673637363014]
そこで本研究では,LLMとLLMを比較し,問題の難易度を推定する手法を提案する。
LLMはペアの難易度比較を行い、Bradley-Terryスコアは結果に基づいて計算される。
我々の研究は、時間を要する人間のアノテーションと合成データ生成を置き換えるための重要なステップである。
論文 参考訳(メタデータ) (2025-12-16T09:13:56Z) - Silhouette-based Gait Foundation Model [56.27974816297294]
統一された歩行基盤モデルを構築するには、スケーラビリティと一般化の2つの長年の障壁に対処する必要がある。
私たちは、歩行理解のための最初のスケーラブルでセルフ教師付き事前学習フレームワークであるFoundationGaitを紹介します。
論文 参考訳(メタデータ) (2025-11-30T01:53:41Z) - LLMs Encode How Difficult Problems Are [4.990590622073335]
大規模言語モデルが人間の判断に沿う方法で問題難易度を符号化するかどうかを検討する。
我々は60のモデルで層とトークンの位置の線形プローブを訓練し、Easy2HardBenchの数学的および符号化部分集合を評価した。
論文 参考訳(メタデータ) (2025-10-20T22:48:23Z) - Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。
我々は質問を4段階(易、中、硬、極度硬)に分類する。
我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。
エクレベルの質問は、根本的に異なる課題を示します。
論文 参考訳(メタデータ) (2025-04-16T03:39:38Z) - GAOKAO-Eval: Does high scores truly reflect strong capabilities in LLMs? [32.972545797220924]
大規模言語モデル(LLM)は人為的なベンチマークを用いて一般的に評価される。
GAokaO-Evalは、ハイスコアが人間の手動能力を本当に反映していないことを明らかにした。
論文 参考訳(メタデータ) (2024-12-13T11:38:10Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。