論文の概要: The Correct Answer Trap: Pedagogically-Grounded Detection and Feedback for Hidden Misconceptions
- arxiv url: http://arxiv.org/abs/2606.23205v1
- Date: Mon, 22 Jun 2026 11:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 23:22:03.620051
- Title: The Correct Answer Trap: Pedagogically-Grounded Detection and Feedback for Hidden Misconceptions
- Title(参考訳): 正解路:隠れた誤解に対する教育学的検出とフィードバック
- Authors: Moiz Imran, Sahan Bulathwela,
- Abstract要約: 我々は,Eedi数学プラットフォームから20,964人の実学生の回答を用いて,隠れた誤解を自動的に検出する。
本稿では,解答正解率と解答妥当性を分離し,検出・検証・エスカレートパイプラインを提案する。
2つのデプロイメントモードがパイプラインに適合する。レビューキューをフィルタリングする教師ダッシュボードと、フラグが低コストなフォーマットフォローアップをトリガーする自律的なチューターだ。
- 参考スコア(独自算出の注目度): 2.6352293843915606
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automated feedback systems that rely on answer correctness will reinforce, rather than address, misconceptions when students reach the correct answer through flawed reasoning. We investigate automatic detection of these hidden misconceptions using 20,964 real student responses from the Eedi mathematics platform. Fine-tuned classifiers detect only 57% of these hidden misconceptions, and standard ML interventions do not improve on this. An open-weight reasoning model detects 84%, but at realistic prevalence, false alarms outnumber genuine detections roughly 8 to 1. We present a graduated assessment rubric that separates answer correctness from method validity, and propose a detect-verify-escalate pipeline that routes uncertain cases to diagnostic follow-up questions rather than directly to teachers. Two deployment modes adapt the pipeline: a teacher dashboard where the system filters a review queue, and an autonomous tutor where flags trigger low-cost formative follow-up.
- Abstract(参考訳): 答えの正当性に依存する自動フィードバックシステムは、学生が欠陥のある推論を通じて正しい答えに達するときの誤解に対処するのではなく、強化される。
Eedi数学プラットフォームから20,964人の実学生の回答を用いて、これらの隠れた誤解を自動的に検出する。
微調整された分類器は、これらの隠された誤解の57%しか検出せず、標準のML介入は改善しない。
オープンウェイト推論モデルは84%を検知するが、現実的な頻度では、偽のアラームは8対1の真の検出よりも多い。
本稿では,解答正解率と解答正解率を分離する先行評価ルーブリックを提案し,不確実な症例を教師に直接ではなく,診断フォローアップ質問にルーティングする検出検証・エスカレートパイプラインを提案する。
2つのデプロイメントモードがパイプラインに適合する。レビューキューをフィルタリングする教師ダッシュボードと、フラグが低コストなフォーマットフォローアップをトリガーする自律的なチューターだ。
関連論文リスト
- Beyond Accuracy: Measuring Bias Acknowledgment in Chain-of-Thought Reasoning for Responsible AI Evaluation [25.235899757379844]
2つの応答は同じ最終回答スコアを受信できるが、トレースが明示的にバイアスコンテンツを注入するかどうかが異なる。
本稿では,2つの軸を持つ最小限のトレースレベル診断法について紹介する: バイアスが以前に正しい答えを破るかどうか) と強調(トレースが注入されたコンテンツに対するルーリック定義の表面参照を含むかどうか)である。
論文 参考訳(メタデータ) (2026-06-13T05:41:57Z) - Better Accuracies, Worse Reasoning: A Step-Level Audit of Medical Chain-of-Thought Distillation [14.101636730819175]
チェーン・オブ・シンクレット(CoT)蒸留は、教師の推論の痕跡を模倣するために、より小さなモデルを訓練する。
回答の品質向上とトレースの改善が伴うかどうかを問う。
論文 参考訳(メタデータ) (2026-05-27T10:55:24Z) - Catching The Correct Answer Trap: Characterising AI Tutor Blind Spots When Analysing Student Reasoning [2.6352293843915606]
我々は,正解トラップ(CAT: correct answer trap)と呼ばれる障害モードについて検討する。
Eedi数学プラットフォームから実際の学生の反応を分析すると、これらの失敗の71%が2つの質問タイプに集中していることが分かる。
論文 参考訳(メタデータ) (2026-04-20T10:53:48Z) - GATES: Self-Distillation under Privileged Context with Consensus Gating [89.62339954332248]
我々は、監督が信頼できない環境で自己蒸留を研究する。
非対称な文脈で回答する文書に焦点をあてる。
複数の文書ベース推論トレースをサンプリングすることにより、教師のコンセンサスからオンラインでの監督を導出する。
論文 参考訳(メタデータ) (2026-02-24T05:56:20Z) - PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering [71.15346406323827]
本稿では,プロセス・アウトカム・アライメント・アライメント・検証における検証結果を評価するベンチマークであるPRIMEを紹介する。
現在の検証器は、しばしば導出欠陥を検出するのに失敗する。
本稿では,PRIMEで選択した検証手法を利用したプロセス認識型RLVRトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2026-02-12T04:45:01Z) - Probing for Arithmetic Errors in Language Models [86.8227317662622]
言語モデルの内部アクティベーションは、算術誤差を検出するために使用できる。
単純なプローブはモデルが予測した出力と正解の両方を隠蔽状態から正確に復号できることを示す。
モデル精度を90%以上の精度で予測する軽量エラー検出器を訓練する。
論文 参考訳(メタデータ) (2025-07-16T16:27:50Z) - Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。
LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。
教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-12T10:11:40Z) - PANACEA: An Automated Misinformation Detection System on COVID-19 [49.83321665982157]
PANACEAは、新型コロナウイルス関連の主張に関するWebベースの誤情報検出システムである。
事実チェックと噂検出という2つのモジュールがある。
論文 参考訳(メタデータ) (2023-02-28T21:53:48Z) - Claim Check-Worthiness Detection as Positive Unlabelled Learning [53.24606510691877]
クレームチェックの信頼性検出はファクトチェックシステムにおいて重要な要素である。
これらの課題の根底にあるクレームチェックの信頼性検出における中心的な課題を照明する。
我々の最良の手法は、正の非競合学習の変種を用いて、これを自動的に修正する統一的なアプローチである。
論文 参考訳(メタデータ) (2020-03-05T16:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。