論文の概要: Creating and Evaluating K-12 GenAI Assessment Graders Through Context Engineering
- arxiv url: http://arxiv.org/abs/2606.12422v1
- Date: Fri, 08 May 2026 16:32:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.883219
- Title: Creating and Evaluating K-12 GenAI Assessment Graders Through Context Engineering
- Title(参考訳): コンテキストエンジニアリングによるK-12 GenAIアセスメントグレーダの作成と評価
- Authors: Zewei Tian, Alex Liu, Lief Esbenshade, Michael Xiao, Zachary Zhang, Yulia Lápicus, Thomas Han, Kevin He, Min Sun,
- Abstract要約: 大型言語モデル(LLMs)の教育評価への統合は、教室のグレーディングの実践の変革的な変化を表している。
本稿では,LLMグレーダの理論的基礎を検証し,商業的に利用可能な基礎モデルとコンテキストを併用し,学生の作業の成果をルーリックに対して評価する手法を提案する。
- 参考スコア(独自算出の注目度): 6.131107680009006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of large language models (LLMs) into educational assessment represents a transformative shift in classroom grading practices. While automated scoring systems and machine learning techniques have existed for decades, generative AI (GenAI) now enables educators to implement standards-based grading (SBG) with unprecedented efficiency and scale. This paper examines the theoretical foundations and evaluates an LLM grader that uses commercially available foundation models with context and prompt engineering to score student work against a rubric. Drawing on an empirical interrater agreement study using Massachusetts Comprehensive Assessment System (MCAS) data, we observed the Quadratic Weighted Kappa (QWK) and Proportional Reduction in Mean-Squared Error (PRMSE) across mathematics, science, and ELA, using Claude Sonnet 4, Haiku 4.5, GPT-5, and GPT-5 Mini. The results demonstrate that LLM graders, especially when based on foundational models with more parameters, achieve substantial agreement with human raters in mathematics and science assessments, while the performances vary in ELA, suggesting generic foundation models can be effective at scoring in given contexts. Additional analysis of teacher and student feedback reveals strong acceptance of AI-generated narrative feedback but skepticism toward numerical scores, suggesting that LLMs function most effectively as formative tools rather than summative evaluators. Our findings indicate that thoughtfully designed hybrid models that combine AI efficiency with teacher judgment can reduce workload, enhance feedback quality, and support equitable assessment practices without displacing professional expertise.
- Abstract(参考訳): 大型言語モデル(LLMs)の教育評価への統合は、教室のグレーディングの実践の変革的な変化を表している。
自動スコアリングシステムと機械学習技術は何十年にもわたって存在してきたが、ジェネレーティブAI(GenAI)は、教育者が前例のない効率とスケールで標準ベースのグレーディング(SBG)を実装することを可能にする。
本稿では,LLMグレーダの理論的基礎を検証し,商業的に利用可能な基礎モデルとコンテキストを併用し,学生の作業の成果をルーリックに対して評価する手法を提案する。
マサチューセッツ総合評価システム(MCAS)データを用いた実証的インターラッター合意研究に基づき, 数学, 科学, ELAにおける平均二乗誤差(PRMSE)の4次重み付きカッパ(QWK)と比例還元(PRMSE)を, クロードソネット4, 俳句4.5, GPT-5, GPT-5 Miniを用いて検討した。
その結果, LLMグレーダは, 特にパラメータの大きい基礎モデルに基づく場合, 数学や科学評価において人間とはかなりの一致を示し, ELAでは性能が異なっており, 基本モデルが与えられた文脈でのスコアリングに有効であることが示唆された。
教師と学生のフィードバックのさらなる分析により、AI生成の物語的フィードバックは強く受け入れられるが、数値的なスコアに対する懐疑的な見方が示され、LLMは要約的評価よりも、最も効果的な形式的ツールとして機能することが示唆された。
この結果から,AI効率と教師の判断を併用した設計されたハイブリッドモデルは,作業負荷を低減し,フィードバックの質を高め,専門家の専門知識を損なうことなく,公平な評価プラクティスをサポートすることが示唆された。
関連論文リスト
- Measuring Teaching with LLMs [4.061135251278187]
本稿では,文レベルの埋め込みをベースとした独自のLarge Language Modelを使用する。
これらの特化モデルは,0.65以上の専門家による評価で,人間レベルおよび超人的性能を達成可能であることを示す。
また,総合的なモデルスコアは教師の付加価値尺度と一致し,生徒の学習に関連する特徴を捉えていることを示す。
論文 参考訳(メタデータ) (2025-10-27T03:42:04Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - Automated Feedback in Math Education: A Comparative Analysis of LLMs for Open-Ended Responses [0.0]
本研究では,大規模言語モデル(LLM)が数学教育における自動フィードバックを促進する可能性を探究することを目的とする。
我々は,Llamaの数学版であるMistralを採用し,このモデルを用いて,中学校数学問題に対する生徒の回答と教師によるフィードバックのデータセットを活用することによって,学生の反応を評価する。
2人の教師の判断を生かして,評価精度とフィードバックの質を評価する。
論文 参考訳(メタデータ) (2024-10-29T16:57:45Z) - Evaluating the Impact of Advanced LLM Techniques on AI-Lecture Tutors for a Robotics Course [0.35132421583441026]
本研究では,大規模言語モデル(LLM)を人工知能を用いた大学授業用チューターとして評価する。
特に、プロンプトエンジニアリング、Retrieval-Augmented-Generation (RAG)、ファインチューニングなど、様々な高度な技術が利用されている。
以上の結果から,RAGと迅速なエンジニアリングを組み合わせることで,モデル応答が大幅に向上し,より優れた事実解が得られることが示唆された。
論文 参考訳(メタデータ) (2024-08-02T19:49:19Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。