論文の概要: Simulating Students' Java Programming Errors with Large Language Models
- arxiv url: http://arxiv.org/abs/2606.14113v1
- Date: Fri, 12 Jun 2026 04:51:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.750283
- Title: Simulating Students' Java Programming Errors with Large Language Models
- Title(参考訳): 大規模言語モデルによる学生のJavaプログラミングエラーのシミュレーション
- Authors: Ali Keramati, Jie Cao, Iman Mohammadi, Mark Warschauer, Yang Shi,
- Abstract要約: 本稿では,大規模言語モデル(LLM)が,コード入力における現実的な論理的誤りをシミュレートすることにより,学生にとってスケーラブルなプロキシとして機能するかどうかを考察する。
74,000以上の学生Javaを37の問題を対象とするCodeWorkoutデータセットを用いて,3つの主要なプロンプト戦略の下で5つのLSMを評価した。
我々の定量的発見によると、全てのモデルが多様なエラーを発生させる一方で、人間の提出に対するアライメントは多様化している。
- 参考スコア(独自算出の注目度): 7.543318372822572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding student errors in the programming is a cornerstone of programming education, yet obtaining a representative set of student errors for any newly designed task remains slow and costly, since authentic submissions only accumulate after extensive classroom deployment. This paper explores whether large language models (LLMs) can serve as scalable proxies for students by simulating realistic logical errors in code submissions. Using the CodeWorkout dataset of 74,000+ unique student Java submissions across 37 problems, we evaluate five LLMs under three mainstream prompting strategies: Input-Output (IO), Chain-of-Thought (CoT), and iterative Self-Refine. We assess performance along two key dimensions: diversity (the range of distinct error patterns) and alignment (alignment with authentic student mistakes), and examine how these vary by struggling level of programming tasks. Our quantitative findings reveal that while all models generate diverse errors, their alignment to human submissions diverges: Claude Sonnet 4 achieves the most balanced performance. In addition, we conducted a blinded expert annotation study (N = 401) comparing synthetic and authentic errors. This qualitative analysis confirms that the generated errors are functionally indistinguishable from authentic student errors. Moreover, higher-struggling-level problems elicit more diverse but less student-like errors. These results highlight trade-offs in using LLMs to simulate human learners and suggest design considerations for integrating synthetic errors into teachable agents, intelligent tutoring systems, and large-scale learning analytics.
- Abstract(参考訳): プログラミングにおける学生の誤りを理解することは、プログラミング教育の基盤となっているが、新しく設計されたタスクに対する代表的な学生の誤りの集合は、大規模な教室の配備後にのみ真の提出が蓄積されるため、遅くてコストがかかるままである。
本稿では,大規模言語モデル(LLM)が,コード入力における現実的な論理的誤りをシミュレートすることにより,学生にとってスケーラブルなプロキシとして機能するかどうかを考察する。
74,000以上の学生JavaによるCodeWorkoutデータセットを使用して、37の課題にまたがって、入力出力(IO)、Chain-of-Thought(CoT)、反復自己修正(Iterative Self-Refine)という3つの主要なプロンプト戦略の下で、5つのLCMを評価します。
多様性(異なるエラーパターンの範囲)とアライメント(真正な学生の誤りに対応する)の2つの重要な側面に沿って性能を評価し、これらが困難なプログラミングタスクのレベルによってどのように変化するかを調べる。
我々の定量的発見によると、全てのモデルが多様なエラーを発生させる一方で、人間の提出に対するアライメントは多様化している。
また, ブラインドドエキスパートアノテーション研究 (N = 401) を行い, 合成誤りと認証誤りを比較した。
この定性的な分析により、生成した誤りが真正な学生の誤りと機能的に区別できないことが確認される。
さらに、高ストラグリングレベルの問題は、より多様性があるが、学生のようなエラーは少ない。
これらの結果は、人間の学習者をシミュレートするためにLLMを使うことのトレードオフを強調し、合成エラーを教育可能なエージェント、インテリジェントチューリングシステム、大規模学習分析に統合するための設計上の考慮を提案する。
関連論文リスト
- Can MLLMs Read Students' Minds? Unpacking Multimodal Error Analysis in Handwritten Math [55.83696908107408]
スクラッチマス(ScratchMath)は,手書き数学のスクラッチワークにおける誤りの説明と分類のための新しいベンチマークである。
本データセットは,中国初等・中等生の1,720個の数学サンプルからなる。
我々は,ScratchMath上での16のMLLMを系統的に評価し,人的専門家に対する顕著な性能差を明らかにした。
論文 参考訳(メタデータ) (2026-03-26T02:57:20Z) - KASER: Knowledge-Aligned Student Error Simulator for Open-Ended Coding Tasks [1.2593978066564901]
我々は,エラーを学生の知識と整合させる新しいアプローチであるKASER(Knowledge-Aligned Students Error Simulator)を提案する。
学生のコード予測の3つの側面を反映したハイブリッド報酬を用いた強化学習に基づく学習手法を提案する。
論文 参考訳(メタデータ) (2026-01-10T17:36:48Z) - Assessing Large Language Models for Automated Feedback Generation in Learning Programming Problem Solving [0.0]
大規模な言語モデル(LLM)は、フィードバック生成を自動化する潜在的なツールとして登場した。
本研究は,45の学生ソリューションのベンチマークデータセットを用いて,4つのLCMの性能を評価する。
論文 参考訳(メタデータ) (2025-03-18T18:31:36Z) - From Correctness to Comprehension: AI Agents for Personalized Error Diagnosis in Education [24.970741456147447]
大規模言語モデル(LLM)は、GSM8Kのようなベンチマークでほぼ完璧なパフォーマンスを達成し、驚くべき数学的推論能力を示している。
しかし、誤り診断やフィードバック生成よりも正確さが過大評価されているため、パーソナライズされた教育への応用は依然として限られている。
textbfMathCCSは,システム的エラー解析と修正されたフィードバックのためのベンチマークである。
第2に、過去のデータを利用してトレンドを追跡し、診断精度を向上させるシーケンシャルなエラー解析フレームワークを開発する。
第3に、歴史的分析のための時系列エージェントと実時間のためのMLLMエージェントを組み合わせたマルチエージェント協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-19T14:57:51Z) - Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [79.40678802098026]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。
現在のエラー分類法は静的および事前定義されたカテゴリに依存している。
本稿では,共通なエラーパターンを明示的なガイダンスとして組み込んだEAP(Error-Aware Prompting)を提案する。
論文 参考訳(メタデータ) (2025-01-26T16:17:57Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。
LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。
教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-12T10:11:40Z) - Decoding Logic Errors: A Comparative Study on Bug Detection by Students
and Large Language Models [5.162225137921625]
大規模言語モデル(LLM)は、最近、様々な計算タスクにおいて驚くべきパフォーマンスを示した。
GPT-3 と GPT-4 の2つの LLM の性能について検討した。
論文 参考訳(メタデータ) (2023-11-27T17:28:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。