論文の概要: Towards Fully Automated Exam Grading: Fairness-Aware Recognition of Handwritten Answers with Foundation Models
- arxiv url: http://arxiv.org/abs/2606.11477v1
- Date: Tue, 09 Jun 2026 22:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.196435
- Title: Towards Fully Automated Exam Grading: Fairness-Aware Recognition of Handwritten Answers with Foundation Models
- Title(参考訳): 完全自動エクサムグラフ作成に向けて:基礎モデルを用いた手書き回答の公正認識
- Authors: Hartwig Grabowski,
- Abstract要約: 汎用視覚言語基盤モデル(VLM)は、ピクセルテンプレートにマッチするのではなく、ページを解釈する。
61の匿名試験(3141の回答位置)のベンチマークでは、最良のモデルは98.4%の精度に達する。
したがって、完全に自動化された公正な試験は、スケールで評価される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Correcting handwritten exams by hand is time-consuming and error-prone, particularly for large cohorts, while fully digital exams tend to force a didactic narrowing towards closed question formats. A practical middle ground keeps paper-based, problem-oriented tasks but records the assessment-relevant answers as single capital letters in a table that a machine can read. The open question is whether this reading can be made accurate and, above all, fair enough for unsupervised grading. Earlier automated approaches reached only about 88%--91% recognition -- too low -- and failed on the cases that matter most: answers placed outside the cell, crossed out, or written in cursive. We show that general-purpose vision-language foundation models (VLMs), which interpret the page rather than match pixel templates, close this gap. On a benchmark of 61 anonymised exams (3141 answer positions) the best model reaches 98.4% accuracy, well above the previous baseline. Crucially, we centre the evaluation on fairness: we distinguish false negatives (a correct answer marked wrong, which disadvantages the student) from false positives, and a lightweight prompt that supplies the reference solution as context lowers the false-negative rate to 0.58%. Under an exemplary grading scheme only three of the 61 exams would be graded worse, all caught by a student self-review step. Fully automated, fairness-aware exam grading at scale is therefore defensible; we release the anonymised benchmark to support reproducibility.
- Abstract(参考訳): 手書きの筆記試験の修正は、特に大きなコホートにとって、時間とエラーが伴うが、完全なデジタル試験は、閉じた質問形式に道理を絞る傾向がある。
実践的な中核は、紙ベースで問題指向のタスクを保持するが、評価関連回答は、マシンが読めるテーブル内の単一の大文字として記録する。
オープンな疑問は、この読み取りが正確で、何よりも、教師なしのグレーディングに十分公平であるかどうかである。
それまでの自動化アプローチは、認識率が約88%-91%(低すぎる)に過ぎなかった。
画素テンプレートにマッチするのではなく,ページを解釈する汎用視覚言語基盤モデル(VLM)が,このギャップを埋めることを示す。
61の匿名試験(3141の回答位置)のベンチマークでは、最高のモデルは98.4%の精度に達し、前回のベースラインよりもはるかに上回っている。
重要な点として、我々は虚偽陰性(正解は誤りであり、学生は不利である)と偽陽性とを区別し、文脈が偽陰性率を0.58%に低下させるため、基準解を提供する軽量なプロンプトを提示する。
模範的な学級制度の下では、61回の試験のうち3回のみが成績が悪くなり、すべて学生の自己審査のステップによって捕えられた。
したがって、完全自動化された公平性に配慮した大規模な試験グレーディングは、修正可能であり、再現性をサポートするために匿名化されたベンチマークをリリースする。
関連論文リスト
- Hybrid E-Assessment in Higher Education: Semi-Automated Grading of Paper-Based Written Examinations [0.0]
本稿では,半自動グルーピングを実現しつつ,紙ベースの問題指向試験タスクを継続するハイブリッドe-アセスメント手法を提案する。
最近の視覚対応型大規模言語モデルと2パスの検証原理と解鍵との比較を組み合わせることで、誤分類を減らすことができる。
論文 参考訳(メタデータ) (2026-06-07T21:50:20Z) - When VLMs 'Fix' Students: Identifying and Penalizing Over-Correction in the Evaluation of Multi-line Handwritten Math OCR [1.625123212387532]
我々は、視覚言語モデル(VLM)の臨界故障モードを明らかにするマルチライン手書き数学 OCR の最初の体系的研究について述べる。
学生の作品を忠実に書き起こす代わりに、これらのモデルはしばしば誤りを「修正」し、教育アセスメントが検出しようとする間違いを隠蔽する。
本稿では,Large Language Model (LLM) をルーブリックに基づくグレーディングに活用し,過度な補正を明示的に行う意味評価指標PINKを提案する。
論文 参考訳(メタデータ) (2026-04-01T05:27:52Z) - Decoupling Scores and Text: The Politeness Principle in Peer Review [0.0]
著者はしばしばピアレビューのフィードバックを解釈するのに苦労し、丁寧なコメントから誤った希望を導き、特定の低いスコアで混乱していると感じている。
我々は,3万件以上のICLR 2021-2025のデータセットを構築し,数値スコアを用いた受入予測性能とテキストレビューを比較した。
スコアベースモデルでは91%,テキストベースモデルでは81%,大規模言語モデルでは81%であった。
論文 参考訳(メタデータ) (2026-03-23T11:58:48Z) - GATES: Self-Distillation under Privileged Context with Consensus Gating [89.62339954332248]
我々は、監督が信頼できない環境で自己蒸留を研究する。
非対称な文脈で回答する文書に焦点をあてる。
複数の文書ベース推論トレースをサンプリングすることにより、教師のコンセンサスからオンラインでの監督を導出する。
論文 参考訳(メタデータ) (2026-02-24T05:56:20Z) - Grading Handwritten Engineering Exams with Multimodal Large Language Models [0.0]
手書きのSTEM試験は、オープンエンドの推論と図をキャプチャするが、手動のグラデーションは遅く、スケールが難しい。
マルチモーダル大言語モデル(LLM)を用いた手書き手書き工学クイズを段階的に学習するためのエンドツーエンドワークフローを提案する。
講師は手書きの参照ソリューション(100%)と短時間のグルーピングルールのみを提供し、基準スキャンを露出することなく、条件がグルーピングされるテキストのみの要約に変換する。
論文 参考訳(メタデータ) (2026-01-02T16:10:08Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。