論文の概要: LLMs Struggle to Measure What Distinguishes Students of Different Proficiency Levels: A Study of Item Discrimination in Reading Comprehension Assessment
- arxiv url: http://arxiv.org/abs/2606.18709v1
- Date: Wed, 17 Jun 2026 05:43:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.021024
- Title: LLMs Struggle to Measure What Distinguishes Students of Different Proficiency Levels: A Study of Item Discrimination in Reading Comprehension Assessment
- Title(参考訳): 学力の異なる生徒を識別するためのLCMの取組 : 読解総合評価における項目識別の検討
- Authors: Han Chen, Ming Li, Chenguang Wang, Yijun Liang, Dawei Zhou, Hong jiao, Tianyi Zhou,
- Abstract要約: 項目判別は、高い習熟度を持つ生徒と低い習熟度を持つ学生とを有意に区別するか否かを測定する。
大規模言語モデル(LLM)がアイテムの難易度を推定できるかどうかについては,様々な研究がなされている。
2つの相補的アプローチを用いて,42個のプロプライエタリかつオープンウェイトなLCMをゼロショット設定で評価した。
- 参考スコア(独自算出の注目度): 30.98689667391972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Item discrimination is a fundamental psychometric property of educational assessment, which measures whether an item meaningfully distinguishes students with higher proficiency from students with lower proficiency. While various existing works have explored whether large language models (LLMs) can estimate item difficulty, it remains unclear whether they can capture item discrimination. In this work, we evaluate 42 proprietary and open-weight LLMs in zero-shot settings using two complementary approaches: direct discrimination prediction, where models explicitly estimate an item's discrimination value from its content, and response-based Classical Test Theory (CTT) calibration, where LLM answers are treated as synthetic student responses to compute discrimination scores. Our results show that direct prediction yields weak alignment with human-calibrated discrimination: the best-performing model reaches only a Spearman correlation of 0.152. Response-based CTT calibration provides a stronger but still limited signal, with the all-persona synthetic respondent pool reaching a Spearman correlation of 0.241. These findings highlight item discrimination as an open challenge for LLM-based psychometric evaluation: current LLMs contain non-random discrimination-relevant signal, but they do not yet reliably capture how assessment items distinguish human students.
- Abstract(参考訳): 項目識別は教育評価の基本的な心理測定特性であり、項目がより熟練度の高い生徒と熟練度低い学生とを有意に区別するかどうかを測定する。
大規模言語モデル(LLM)がアイテムの難易度を推定できるかどうかについては,様々な研究がなされている。
本研究は,42のプロプライエタリかつオープンウェイトなLCMをゼロショット設定で評価する,直接判別予測(direct discrimination prediction)と,その内容からアイテムの識別値を明示的に推定するモデル)と,LLMの回答を合成学生の回答として扱い,識別スコアを計算するための古典的テスト理論(CTT)キャリブレーション(Reference-based Classical Test Theory)という,2つの相補的なアプローチを用いて評価する。
その結果, 直接予測は人間の偏差と弱い相関関係を呈し, 最適性能モデルはスピアマン相関の0.152にしか達しないことがわかった。
応答に基づくCTTキャリブレーションは、強いがまだ限られた信号を提供し、全対人合成応答プールは、スピアマン相関の0.241に達する。
これらの知見は, LLMに基づく心理的評価のオープンな課題として, 現在のLCMには非ランダムな識別関連信号が含まれているが, 評価項目が人間の学生をいかに区別するかを確実に把握していない。
関連論文リスト
- Beyond Scalar Scores: Exploring LLM-based Metrics for Clinical Significance Evaluation in Radiology Reports [49.5225801722164]
既存のメトリクスは、医学的に根拠のないスカラーにレポートの品質を低下させることによって、この要件を曖昧にしている。
テストベッドとしてReEvalMedベンチマークを用いて,この境界について検討し,計量レベルの臨床的意義を評価する。
論文 参考訳(メタデータ) (2026-06-17T08:10:30Z) - Assessment Design in the AI Era: A Method for Identifying Items Functioning Differentially for Humans and Chatbots [0.0]
教育における大規模言語モデル(LLM)の急速な採用は、アセスメント設計に重大な課題をもたらす。
我々は,人間とLLMが体系的な応答差を示す項目を特定するために,統計的に原則化されたアプローチを導入する。
この方法は、差分アイテム機能解析(DIF)に基づく。
論文 参考訳(メタデータ) (2026-03-24T19:39:39Z) - Autoscoring Anticlimax: A Meta-analytic Understanding of AI's Short-answer Shortcomings and Wording Weaknesses [4.061135251278187]
本研究は, 子どもの筆記作品の採点作業において, 人的専門家の難易度は, LLMの成績に統計的に影響を及ぼさないことを示した。
具体的には,人間の得点者によって測定される最も簡単なスコアリングタスクが,LSMにとって最も難しいものであることを示す。
発見者は、自己回帰モデルの既知の統計的欠点を予想するシステム設計を主張する。
論文 参考訳(メタデータ) (2026-03-05T05:11:08Z) - Evaluating LLM Behavior in Hiring: Implicit Weights, Fairness Across Groups, and Alignment with Human Preferences [0.8155575318208629]
採用におけるLCMの決定ロジックを評価するための枠組みを提案する。
我々は、実際のフリーランサープロファイルから合成データセットを構築し、ヨーロッパの主要オンラインフリーランサーマーケットプレースからプロジェクト記述を作成します。
LLMがどの属性を優先するかを特定し、これらの重みがプロジェクトコンテキストや人口構成サブグループによってどのように異なるかを分析する。
論文 参考訳(メタデータ) (2026-01-16T15:38:03Z) - No LLM is Free From Bias: A Comprehensive Study of Bias Evaluation in Large Language Models [0.9620910657090186]
大規模言語モデル(LLM)は、異なる自然言語理解と生成タスクの性能を高めている。
我々は,中小LLMの集合を用いてベンチマークを統一的に評価する。
バイアス検出タスクをバイアスの異なる側面で行うための5つのプロンプト手法を提案する。
その結果, 選択したLLMは, Phi-3.5Bモデルが最も偏りが少ないため, いずれか一方あるいは他方の偏りに悩まされることが示唆された。
論文 参考訳(メタデータ) (2025-03-15T03:58:14Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Bias and Volatility: A Statistical Framework for Evaluating Large Language Model's Stereotypes and the Associated Generation Inconsistency [33.17945055081054]
現在のアライメント評価指標は、大言語モデルの一貫性のない生成行動に起因するステレオタイプのランダム性を見落としていることが多い。
LLM出力におけるステレオタイプの確率分布を推定するBias-Volatility Framework (BVF)を提案する。
論文 参考訳(メタデータ) (2024-02-23T18:15:56Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。