論文の概要: LLM-as-Judge in Education: A Curriculum-Grounded Marking Pipeline
- arxiv url: http://arxiv.org/abs/2606.17507v1
- Date: Tue, 16 Jun 2026 04:33:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.266609
- Title: LLM-as-Judge in Education: A Curriculum-Grounded Marking Pipeline
- Title(参考訳): LLM-as-Judge in Education: a Curriculum-Grounded Marking Pipeline
- Authors: Xiwei Xu, Chen Wang, Jacky Jiang, Phil Yang, Qian Fu, Mohan Dhall, Wenjie Zhang, Liming Zhu,
- Abstract要約: 本稿では,質問レベルマーキングのためのカリキュラムベースでカスタマイズ可能なLCM-as-Judgeパイプラインを提案する。
パイプラインは、大学入学試験の準備を支援する工業パートナーと共同で開発されている。
予備評価の結果,提案したLSM-as-Judgeパイプラインは人間のチューターに匹敵するマーキング結果をもたらすことが示された。
- 参考スコア(独自算出の注目度): 15.638452809302407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI and large language models (LLMs) are increasingly applied to question generation and automated assessment. However, deploying LLMs in preparation for high-stakes exams requires more than prompt engineering; it demands software pipelines that systematically ground model outputs in authorised curriculum artefacts and marking guidelines issued by education authorities. This paper presents a curriculum-grounded, configurable LLM-as-Judge pipeline for question-level marking, co-developed with an industrial partner, to support exam preparation for university admission. The pipeline identifies the relevant topics, subtopics, and cognitive demand of a question, and assembles verifiable and authorised context to support LLM judgement. Curriculum intent is operationalised through concrete syllabus artefacts, including prescribed verbs and outcomes, performance band descriptors, glossary definitions, and marking-guideline principles. A staged LLM workflow is employed to first generate question-specific rubrics, capturing structured expectations of performance, and then derive and evaluate marking criteria used to allocate marks to student responses. This design improves consistency, transparency, and alignment with official marking practices. Preliminary evaluation shows that the proposed LLM-as-Judge pipeline delivers marking outcomes comparable to human tutors, while yielding justifications that are more traceable to authorised curriculum artefacts and marking standards. The pipeline has also been integrated into an online study platform, where early deployment data provide initial insights into operational usage and manual overrides.
- Abstract(参考訳): ジェネレーティブAIと大規模言語モデル(LLM)は、質問生成と自動評価にますます応用されている。
しかし、ハイテイク試験の準備のためにLSMを配備するには、即興のエンジニアリング以上のことが必要であり、認可されたカリキュラムの成果物や教育当局が発行するマーキングガイドラインに、体系的にモデル出力を基礎づけるソフトウェアパイプラインが必要である。
本稿では,大学入学のための試験準備を支援するために,産業界パートナーと共同開発した質問レベルマーキングのためのカリキュラムベースで構成可能なLCM-as-Judgeパイプラインを提案する。
パイプラインは、質問に関連するトピック、サブトピック、および認知的要求を特定し、LLM判断を支援するための検証可能な、認可されたコンテキストを組み立てる。
カリキュラム意図は、所定の動詞と結果、パフォーマンスバンド記述子、用語的定義、マーキング・ギデリンの原則を含む具体的なシラバスの成果によって運営される。
ステージ化されたLCMワークフローを使用して、まず質問固有のルーリックを生成し、パフォーマンスの構造化された期待を捉え、次に、学生の反応にマークを割り当てるために使われるマーキング基準を導出し、評価する。
この設計は、一貫性、透明性、公式なマーキングプラクティスとの整合性を改善する。
予備的な評価は、提案されたLSM-as-Judgeパイプラインが人間のチューターに匹敵するマーキング結果をもたらし、認定されたカリキュラムの成果物やマーキング基準に追跡可能な正当化をもたらすことを示している。
パイプラインはオンライン学習プラットフォームにも統合されており、初期のデプロイメントデータによって運用使用状況や手動によるオーバーライドに関する最初の洞察が提供される。
関連論文リスト
- A Unified and Reproducible Experimentation Framework for Speech Understanding [44.73703262229875]
SUREは、予測フォーマット、正規化、スコアリングを標準化する統合実験フレームワークである。
本稿では,予測形式,正規化,スコアリングを標準化した統一実験フレームワークSUREを提案する。
論文 参考訳(メタデータ) (2026-05-29T06:33:36Z) - Optimizing LLM Annotation of Classroom Discourse through Multi-Agent Orchestration [0.21410799064827235]
大規模言語モデル(LLM)は、教育データを注釈付けするためのスケーラブルなツールとしてますます位置づけられている。
しかし, シングルパスLCMの出力は, ハイテイクな教育施設では信頼性が低いことが示唆されている。
このスケールと妥当性の緊張は、現代の教育データ科学の核心にある。
論文 参考訳(メタデータ) (2026-03-08T16:51:03Z) - Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。
本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。
データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文 参考訳(メタデータ) (2026-01-22T12:02:45Z) - OLAF: Towards Robust LLM-Based Annotation Framework in Empirical Software Engineering [2.74296307006009]
大規模言語モデル(LLM)は、ソフトウェア工学において、アノテーションタスクの自動化やアシストにますます使われている。
既存の研究では、信頼性、キャリブレーション、ドリフトの標準化された尺度が欠如していることが多い。
LLMに基づくアノテーションは、純粋に自動化されたアクティビティではなく、測定プロセスとして扱われるべきである。
論文 参考訳(メタデータ) (2025-12-17T21:24:07Z) - Repurposing Annotation Guidelines to Instruct LLM Annotators: A Case Study [18.680267879256252]
既存のアノテーションガイドラインは、テキストアノテーションタスクのための大きな言語モデル(LLM)アノテーションを指示するために再利用することができる。
本稿では,ガイドラインをLCMの明確な指示に変換するモデレーション指向のガイドライン検索手法を提案する。
論文 参考訳(メタデータ) (2025-10-13T13:07:58Z) - How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。
メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文 参考訳(メタデータ) (2025-04-10T16:14:55Z) - To Err Is Human; To Annotate, SILICON? Reducing Measurement Error in LLM Annotation [11.470318058523466]
大規模言語モデル(LLM)は、人間のアノテーションに代わる費用対効果の高いスケーラブルな代替を約束する。
LLMアノテーションから測定誤差を体系的に低減するSILICON手法を開発した。
この証拠は,各エラー源の削減が必要であり,SILICONは管理研究において厳密なアノテーションをサポートしていることを示唆している。
論文 参考訳(メタデータ) (2024-12-19T02:21:41Z) - Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Vision-Language Instruction Tuning: A Review and Analysis [52.218690619616474]
VLIT(Vision-Language Instruction Tuning)は、純粋なテキスト命令チューニングよりも複雑な特徴を示す。
既存のVLITデータセットの詳細な分類と、高品質なVLITデータが持つべき特性を識別する。
これらの特徴を既存のVLITデータ構築プロセスに導出する原理として取り入れることで、我々は広範囲な実験を行い、調整されたマルチモーダルLCMの性能に対する肯定的な影響を検証した。
論文 参考訳(メタデータ) (2023-11-14T14:02:32Z) - Demonstrate-Search-Predict: Composing retrieval and language models for
knowledge-intensive NLP [77.817293104436]
本稿では,LMとRMの間の洗練されたパイプラインにおいて,自然言語テキストを渡すことに依存するフレームワークを提案する。
我々は、オープンドメイン、マルチホップ、会話設定で質問に答えるための新しいDSPプログラムを作成した。
論文 参考訳(メタデータ) (2022-12-28T18:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。