論文の概要: Confidence-Aware Automated Assessment of Student-Drawn Scientific Models
- arxiv url: http://arxiv.org/abs/2606.20264v1
- Date: Thu, 18 Jun 2026 14:12:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.903848
- Title: Confidence-Aware Automated Assessment of Student-Drawn Scientific Models
- Title(参考訳): 学生の夜明け科学モデルの信頼度自動評価
- Authors: Luyang Fang, Yingchuan Zhang, Jongchan Park, Zhaoji Wang, Ping Ma, Xiaoming Zhai,
- Abstract要約: 学生による科学的図面の自動採点について,視覚モデルを用いて検討した。
テスト時間予測分布から応答レベルの信頼性を導出する信頼度を考慮したスコアリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.454329098818463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Student-generated drawings are widely used in science education to assess learners' conceptual understanding in modeling-based tasks aligned with the Next Generation Science Standards (NGSS). However, scoring such drawings requires expert human judgment to interpret complex visual representations, making large-scale assessment costly to implement and sustain in classroom settings. In this work, we study automated scoring of student-generated scientific drawings using a vision-based model. We evaluate a Vision Transformer (ViT) with parameter-efficient adaptation and propose a confidence-aware scoring framework that derives response-level confidence from test-time predictive distributions. This confidence signal enables selective automation by scoring high-confidence responses automatically while deferring uncertain cases for human review. Experiments on six NGSS-aligned middle school assessment items show that the proposed approach improves scoring reliability while supporting a practical trade-off between automated coverage and scoring risk, highlighting the value of confidence-aware methods for trustworthy educational assessment.
- Abstract(参考訳): 学生生成図面は、次世代科学標準(NGSS)に沿ったモデリングに基づくタスクにおける学習者の概念的理解を評価するために、科学教育で広く使用されている。
しかし、このような図面の採点には、複雑な視覚表現を解釈する専門家の判断が必要であり、大規模な評価を教室で実施・維持するためにコストがかかる。
本研究では,学生による科学的図面の自動採点について,視覚モデルを用いて検討する。
パラメータ効率を考慮した視覚変換器 (ViT) の評価を行い, テスト時間予測分布から応答レベルの信頼性を導出する信頼性評価フレームワークを提案する。
この信頼信号は、人間のレビューに不確実なケースを遅延させながら、高信頼応答を自動的にスコアし、選択的自動化を可能にする。
6項目のNGSS対応中等教育評価項目を実験した結果,自動カバレッジと評価リスクの実践的トレードオフを支持しつつ,信頼性の向上を図り,信頼性に配慮した教育評価手法の価値を強調した。
関連論文リスト
- From Holistic Evaluation to Structured Criteria: Rubrics Across the Evolving LLM Landscape [79.30826980815927]
ルーブリックは、複雑な品質判断を構造化され、実行可能な標準に変換する明示的な基準セットです。
我々は,既存のルーリックデザインを体系的に整理し,その構築と最適化を検証し,評価と訓練をまたいだ役割を解析する。
論文 参考訳(メタデータ) (2026-06-07T13:34:55Z) - Skill-Aligned Annotation for Reliable Evaluation in Text-to-Image Generation [50.85337196571056]
テキスト・ツー・イメージ(T2I)生成は急速に進歩し、モデル間の性能差が狭まるにつれて信頼性の高い評価が重要になった。
既存の評価慣行は、通常、Likert-scale や binary question answering (BQA) のような一様アノテーション機構を適用している。
我々は,T2I評価を,各評価スキルの根底にある特徴を反映したアノテーション戦略のレンズを通して再検討する。
論文 参考訳(メタデータ) (2026-05-13T09:14:31Z) - Confidence Estimation in Automatic Short Answer Grading with LLMs [0.0]
生成型大言語モデル(LLM)を用いた自動短解像(ASAG)は,タスク固有の微調整を伴わずに高い性能を示した。
LLMのグレーディングは依然として不完全であり、安全で効果的な人間とAIのコラボレーションには信頼性の高い信頼度推定が不可欠である。
本稿では,モデルに基づく信頼度信号とデータセット由来のアレータ的不確実性の明示的な推定を統合したハイブリッド信頼フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-30T20:26:10Z) - BrowseConf: Confidence-Guided Test-Time Scaling for Web Agents [58.05949210993854]
本研究では,長期にわたる行動の後,言語化された信頼度スコアを用いて,検索エージェントが自身の信頼を伝達できるかどうかを検討する。
本研究では,信頼度スコアを用いて回答の質を判断し,信頼度レベルに達するまで再度試すテスト時間スケーリング(TTS)手法を提案する。
論文 参考訳(メタデータ) (2025-10-27T15:58:51Z) - Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAは、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完される。
さまざまなドリフトのデータセットにわたるSOTAフレームワークの脆弱性は、ホワイトボードへの復帰の必要性を示唆している。
論文 参考訳(メタデータ) (2025-05-28T20:22:43Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。