論文の概要: Impacts of Histories and Models on LLM Grading: A Study in Advanced Software Engineering Courses
- arxiv url: http://arxiv.org/abs/2606.08400v1
- Date: Sun, 07 Jun 2026 01:31:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.083178
- Title: Impacts of Histories and Models on LLM Grading: A Study in Advanced Software Engineering Courses
- Title(参考訳): LLMグレーディングにおける歴史とモデルの影響:ソフトウェア工学の上級コースにおける研究
- Authors: Qilin Zhou, Zhuo Wang, Yue Li, W. K. Chan,
- Abstract要約: 本稿では,人間の協調型LLM支援グレーティングワークフローを提案する。
我々は,Grok と GPT の2つの主要な LLM の評価を行った。
- 参考スコア(独自算出の注目度): 4.784713411748711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graduate-level research reading report assessment creates a substantial labor burden for educators. While large language models (LLMs) hold great potential for automating academic grading, their reliability for this specialized task remains understudied, particularly regarding grading consistency, the lack of which represents a primary obstacle to educational fairness. This paper proposes a human-aligned LLM-assisted grading workflow and presents a case study based on 180 student submissions from a graduate advanced software engineering course. We evaluate two mainstream LLMs, Grok and GPT, in terms of grading consistency and alignment with human scores. We find LLMs exhibit distinct levels of intra-model consistency and significant inter-model grading inconsistencies, while simple ensemble approaches cannot improve alignment with human evaluation. Critically, continuous interaction history drives systematic drift in models' grading standards away from human expert scores. Our findings demonstrate LLMs' potential in reducing grading workload for educators in graduate education, while highlighting that indiscriminate LLM grading may introduce systemic unfairness, suggesting that specific operational practices are required to mitigate such disparities.
- Abstract(参考訳): 大学院レベルの研究読解レポートの評価は、教育者にとってかなりの労働負担を生んでいる。
大規模言語モデル (LLMs) は学術的評価の自動化に大きな可能性を秘めているが、この専門的な課題に対する信頼性はいまだ検討されていない。
本稿では,人間の協調型LLM支援学習ワークフローを提案し,大学院ソフトウェア工学科の180名の学生を対象とするケーススタディを提案する。
我々は,Grok と GPT の2つの主要な LLM の評価を行った。
簡単なアンサンブルアプローチでは人間の評価との整合性を改善することはできないが, モデル内整合性やモデル間階調の不整合性は顕著である。
批判的に、連続的な相互作用の歴史は、人間の専門家のスコアから、モデルのグレーディング標準を体系的に逸脱させます。
本研究は,LLMが大学院教育における教育者の作業負荷軽減に寄与する可能性を示すとともに,LLMの非差別化がシステム的不公平を生じさせる可能性を示し,そのような格差を緩和するためには,特定の運用プラクティスが必要であることを示唆している。
関連論文リスト
- Beyond Grading Accuracy: Exploring Alignment of TAs and LLMs [1.529342790344802]
本稿では,Unified Language (UML) クラス図のグレーディングにおけるオープンソースのLarge Language Models (LLMs) の可能性について検討する。
その結果, 基準あたりの精度は88.56%, ピアソン相関係数は0.78であり, 従来よりも大幅に向上した。
論文 参考訳(メタデータ) (2026-03-17T10:40:35Z) - Human-in-the-Loop LLM Grading for Handwritten Mathematics Assessments [4.291185382337384]
LLM支援によるペンと紙の短い評価の段階化のためのスケーラブルでエンドツーエンドなワークフローを提案する。
本システムは,6つの低学級試験を用いて,2つの学部数学コースに展開する。
論文 参考訳(メタデータ) (2026-03-13T15:32:09Z) - LLM-REVal: Can We Trust LLM Reviewers Yet? [70.58742663985652]
大規模言語モデル(LLM)は研究者に、学術的なワークフローに広く組み込むよう刺激を与えている。
本研究は、LLMのピアレビューと研究プロセスへの深い統合が学術的公正性にどのように影響するかに焦点を当てる。
論文 参考訳(メタデータ) (2025-10-14T10:30:20Z) - A Multi-LLM Debiasing Framework [85.17156744155915]
大規模言語モデル(LLM)は、社会に多大な利益をもたらす可能性がある強力なツールであるが、社会的不平等を持続するバイアスを示す。
近年,マルチLLM手法への関心が高まっており,推論の質向上に有効であることが示されている。
LLMのバイアス低減を目的としたマルチLLMデバイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T20:24:50Z) - Human-AI Collaborative Essay Scoring: A Dual-Process Framework with LLMs [13.262711792955377]
本研究では,Large Language Models (LLMs) のエッセイ自動評価における有効性について検討した。
本稿では,デュアルプロセス理論にインスパイアされたオープンソースのLLMベースのAESシステムを提案する。
本システムでは, 学習過程の自動化だけでなく, 成績や効率の向上も図っている。
論文 参考訳(メタデータ) (2024-01-12T07:50:10Z) - Towards LLM-based Autograding for Short Textual Answers [4.853810201626855]
この写本は、自動階調のための大きな言語モデルの評価である。
のLCMは貴重なツールであるが、独立した自動グルーピングのための準備がまだ進行中であることを示唆している。
論文 参考訳(メタデータ) (2023-09-09T22:25:56Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。