論文の概要: PsyScore: A Psychometrically-Aware Framework for Trait-Adaptive Essay Scoring and ZPD-Scaffolded Feedback
- arxiv url: http://arxiv.org/abs/2606.20287v1
- Date: Thu, 18 Jun 2026 14:29:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.914817
- Title: PsyScore: A Psychometrically-Aware Framework for Trait-Adaptive Essay Scoring and ZPD-Scaffolded Feedback
- Title(参考訳): PsyScore: Trit-Adaptive Essay ScoringとZPD-Scaffolded Feedbackのための心理学的認識フレームワーク
- Authors: Wei Xia, Jin Wu, Haoran Shi, Xiangyu Wang, Chanjin Zheng,
- Abstract要約: PsyScoreは心理計測学的に認識されるフレームワークで、診断アセスメントと教育的な足場を共有潜在能力表現を通じて統合する。
ASAP++データセットの実験では、PsyScoreは、より教育的に整合したフィードバックを提供しながら、競争的なスコアリングのパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 13.817126458402017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective Automated Essay Scoring (AES) are expected to support both reliable assessment and actionable instructional feedback. However, existing approaches often treat scoring and feedback as separate components: neural scoring models provide limited interpretability, while Large Language Model (LLM)-based feedback is typically insensitive to learners proficiency levels. To address this fragmentation, this work proposes PsyScore, a psychometrically-aware framework that integrates diagnostic assessment with instructional scaffolding through a shared latent ability representation. PsyScore comprises three key modules: a Trait-Adaptive Neural IRT Scorer that incorporates the Graded Partial Credit Model (GPCM) into a neural architecture, enabling the precise estimation of student ability while maintaining psychometric interpretability, a ZPD-Scaffolded Feedback Generator, which conditions multi-agent feedback strategies on the diagnosed ability parameter to adapt instructional focus across different proficiency levels, and a Multi-Perspective Feedback Evaluation Strategy that assesses feedback quality via pairwise preference judgements and student revision simulations. Experiments on the ASAP++ dataset demonstrate that PsyScore achieves competitive scoring performance while providing more pedagogically aligned feedback.
- Abstract(参考訳): 効果的な自動評価スコアリング(AES)は,信頼性評価と実行可能な指導フィードバックの両方をサポートすることが期待されている。
しかし、既存のアプローチでは、スコアリングとフィードバックを別のコンポーネントとして扱う場合が多い: ニューラルスコアリングモデルは限定的な解釈性を提供するが、Large Language Model(LLM)ベースのフィードバックは学習者の習熟度レベルには敏感である。
この断片化に対処するために、この研究はPsyScoreを提案する。PsyScoreは心理学的に認識されたフレームワークで、診断と教育的足場の統合を、共有潜在能力表現を通じて行う。
PsyScoreは3つの主要なモジュールで構成されている: 段階的部分的信用モデル(GPCM)をニューラルネットワークアーキテクチャに組み込んだTrit-Adaptive Neural IRT Scorerは、心理学的解釈性を維持しながら生徒の能力の正確な推定を可能にする。
ASAP++データセットの実験では、PsyScoreは、より教育的に整合したフィードバックを提供しながら、競争的なスコアリングのパフォーマンスを実現している。
関連論文リスト
- From Holistic Evaluation to Structured Criteria: Rubrics Across the Evolving LLM Landscape [79.30826980815927]
ルーブリックは、複雑な品質判断を構造化され、実行可能な標準に変換する明示的な基準セットです。
我々は,既存のルーリックデザインを体系的に整理し,その構築と最適化を検証し,評価と訓練をまたいだ役割を解析する。
論文 参考訳(メタデータ) (2026-06-07T13:34:55Z) - Skill-Aligned Annotation for Reliable Evaluation in Text-to-Image Generation [50.85337196571056]
テキスト・ツー・イメージ(T2I)生成は急速に進歩し、モデル間の性能差が狭まるにつれて信頼性の高い評価が重要になった。
既存の評価慣行は、通常、Likert-scale や binary question answering (BQA) のような一様アノテーション機構を適用している。
我々は,T2I評価を,各評価スキルの根底にある特徴を反映したアノテーション戦略のレンズを通して再検討する。
論文 参考訳(メタデータ) (2026-05-13T09:14:31Z) - Towards Self-Referential Analytic Assessment: A Profile-Based Approach to L2 Writing Evaluation with LLMs [1.3819918262591997]
ランクに基づく相関尺度は、分析次元間の内在的相互関係を曖昧にしている。
高い相関関係はシステムの真の診断行動を隠蔽する可能性がある。
ラーナー内強度と弱点の同定に焦点をあてた自己参照評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-05T21:05:25Z) - Interactive ASR: Towards Human-Like Interaction and Semantic Coherence Evaluation for Agentic Speech Recognition [52.63676763985825]
トークンレベルの精度を超えた認識品質を評価するための意味認識評価指標を提案する。
我々は,人間のようなマルチターンインタラクションをシミュレートするエージェント・フレームワークを設計し,認識出力の反復的改善を可能にする。
対話型およびエージェント型ASRにおける今後の研究を促進するためのコードをリリースする。
論文 参考訳(メタデータ) (2026-04-10T09:02:42Z) - A Closed-Loop Personalized Learning Agent Integrating Neural Cognitive Diagnosis, Bounded-Ability Adaptive Testing, and LLM-Driven Feedback [5.190121417265426]
本稿では,ニューラル認知診断モデル(NCD),境界能力コンピュータ適応テスト戦略(BECAT),大規模言語モデル(LLM)を統合するエンド・ツー・エンドの個別学習エージェントを提案する。
ASSISTmentsデータセットの実験では、NCDモジュールは解釈可能なマスタリーアセスメントを出力しながら応答予測において高い性能を達成する。
全体としては,提案した設計は効果的かつ実用的に展開可能であることを示唆している。
論文 参考訳(メタデータ) (2025-10-26T07:32:31Z) - MOSAIC-F: A Framework for Enhancing Students' Oral Presentation Skills through Personalized Feedback [1.0835264351334324]
このフレームワークは、MMLA(Multimodal Learning Analytics)、観測、センサー、人工知能(AI)、コラボレーションアセスメントを統合している。
このフレームワークは、人間に基づく評価技術とデータに基づく評価技術を組み合わせることで、より正確でパーソナライズされ、行動可能なフィードバックを可能にする。
論文 参考訳(メタデータ) (2025-06-10T09:46:31Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。