Fugu-MT 論文翻訳(概要): Measuring Whether LLM Tutors Teach or Solve: A Diagnostic for Educational Impact

論文の概要: Measuring Whether LLM Tutors Teach or Solve: A Diagnostic for Educational Impact

arxiv url: http://arxiv.org/abs/2606.16206v1
Date: Mon, 15 Jun 2026 04:32:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-16 16:21:34.081817
Title: Measuring Whether LLM Tutors Teach or Solve: A Diagnostic for Educational Impact
Title（参考訳）: LLMチューターが学習するか否かを測定する:教育的影響の診断
Authors: Junyi Yao, Zihao Zheng, Baichuan Li,
Abstract要約: 本研究では,学習支援行動と単なる回答生成とを区別する公立学習ベンチマークについて検討する。本稿では,問題解決指向と教育指向のベンチマーク性能のギャップに基づいた,軽量な診断ルーブリックを提案する。
参考スコア（独自算出の注目度）: 4.6840536642016195
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large language models are increasingly proposed as educational tutors, yet stronger task-solving ability does not necessarily imply stronger learning support. Motivated by recent calls to measure the social impact of NLP systems in practice, we study whether public LLM tutoring benchmarks distinguish learning-supportive behavior from mere answer production. We propose a lightweight diagnostic based on the gap between solving-oriented and pedagogy-oriented benchmark performance. Using public MathTutorBench leaderboard results, we show that these dimensions are only partially aligned: across eight publicly reported models, the correlation between solving and pedagogy composites is 0.421, and several models shift meaningfully in rank when evaluation moves from solving to pedagogy. We then analyze the public TutorBench sample and show that agency-relevant behaviors are explicitly encoded in benchmark rubrics, especially in active-learning settings that reward guiding questions, calibrated hints, and non-disclosive scaffolding. Together, these findings suggest that educational-impact evaluation should not treat task success as a sufficient proxy for learning support. We argue that public tutoring benchmarks can better support positive-impact evaluation by reporting solving-oriented and pedagogy-oriented scores separately and by making disclosure-sensitive, student-agency-preserving criteria more explicit.
Abstract（参考訳）: 大規模言語モデルは教育教師としてますます提案されているが、タスク解決能力の強化は必ずしも学習支援の強化を示唆するものではない。近年,NLPシステムの社会的影響を実際に測定する声に触発され,学習支援行動と単なる回答生成とを区別する公立LLMチュータリングベンチマークが検討されている。本稿では,問題解決指向と教育指向のベンチマーク性能のギャップに基づいた,軽量な診断手法を提案する。公的なMathTutorBenchのリーダーボードの結果から、これらの次元は、公に報告されている8つのモデルにおいて、解法とペタゴギー合成物の相関は0.421であり、評価が解法からペタゴギーに移行すると、いくつかのモデルはランクが有意に変化する。次に、公開TutorBenchサンプルを分析し、特に指導的質問、校正されたヒント、非開示的な足場に報酬を与えるアクティブな学習環境において、エージェンシー関連行動が、ベンチマークルーリックに明示的にエンコードされていることを示す。これらの結果から,教育・インパクト評価は課題成功を学習支援の十分なプロキシとして扱うべきではないことが示唆された。公立の学習ベンチマークは、問題解決指向と教育指向のスコアを別々に報告し、開示に敏感で、学生の緊急保存基準をより明確にすることで、ポジティブ・インパクト評価をより支援できると論じている。

関連論文リスト

Embedding-Based Rankings of Educational Resources based on Learning Outcome Alignment: Benchmarking, Expert Validation, and Learner Performance [0.9236074230806578]
大規模言語モデル(LLM)は、パーソナライゼーションをより良くサポートする学習リソースを作成する可能性への関心が高まっている。本稿では,教育資源と意図した学習成果の整合性を評価するための費用対効果の自動化を支援する枠組みを提案する。
論文参考訳（メタデータ） (2025-12-15T18:51:00Z)
TutorBench: A Benchmark To Assess Tutoring Capabilities Of Large Language Models [10.963195858672627]
TutorBenchは、大規模言語モデル(LLM)のコアチューリングスキルを厳格に評価するために設計されたデータセットと評価ベンチマークである。サンプルは、(i)学生の混乱に合わせた適応的な説明を生成すること、(ii)学生の作業に対して実行可能なフィードバックを提供すること、(iii)効果的なヒント生成を通じて活発な学習を促進すること、の3つの一般的な学習課題から抽出される。我々はTutorBench上で16個のフロンティアLLMを評価し,その性能と挙動を詳細に解析した。
論文参考訳（メタデータ） (2025-10-03T01:41:09Z)
Benchmarking the Pedagogical Knowledge of Large Language Models [4.417539128489408]
本稿では,その教育的知識に基づいて,大規模言語モデルを評価するための新しいデータセットであるThe Pedagogy Benchmarkを紹介する。これらのベンチマークは、教師のための専門的開発試験から得られた、慎重にキュレートされた質問に基づいて構築されている。本報告では, 教育的知識に関する質問に対して, 精度が28%から89%の範囲で, 97モデルの結果を報告する。
論文参考訳（メタデータ） (2025-06-23T14:49:01Z)
From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning [82.50157695987558]
大規模言語モデル(LLM)は教育を変換することができるが、直接質問応答のための最適化はしばしば効果的な教育を損なう。オンライン強化学習(RL)に基づくアライメントフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-21T15:00:07Z)
MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors [82.91830877219822]
我々は、総合的なチューリングモデル評価のためのオープンソースのベンチマークであるMathTutorBenchを紹介する。 MathTutorBenchには、ダイアログベースの教育における科学の研究によって定義された、家庭教師の能力をカバーするデータセットとメトリクスが含まれている。閉鎖的およびオープンウェイトなモデルの幅広いセットを評価し、問題解決能力によって示される課題の専門知識が、すぐには良い教育に変換されないことを発見した。
論文参考訳（メタデータ） (2025-02-26T08:43:47Z)
Evaluating and Optimizing Educational Content with Large Language Model Judgments [52.33701672559594]
言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の影響を評価する。本稿では,一方のLMが他方のLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
論文参考訳（メタデータ） (2024-03-05T09:09:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。