論文の概要: Analytics for Quality Assurance for Item Pools (AQuAP): Monitoring and Maintaining Item Bank Health in AI-Driven Assessment Systems
- arxiv url: http://arxiv.org/abs/2606.18536v1
- Date: Tue, 16 Jun 2026 23:07:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.929846
- Title: Analytics for Quality Assurance for Item Pools (AQuAP): Monitoring and Maintaining Item Bank Health in AI-Driven Assessment Systems
- Title(参考訳): アイテムプールの品質保証分析(AQuAP):AI駆動アセスメントシステムにおけるアイテムバンクの健康状態のモニタリングと維持
- Authors: Alina A. von Davier, Xiaowan Zhang, Yigal Attali, Yena Park, Jacqueline Church, Andrew Runge, Geoff T. LaFlair, Alexander Tsigler,
- Abstract要約: 本稿では,アイテム品質とアイテムバンクの健康状態を監視するダッシュボード環境であるAQuAP(Analytics for Quality Assurance for Item Pools)を提案する。
AQuAPは、アイテムファクトリに含まれるハイテイクテストのための大規模アイテム生成手順の運用実装をサポートする。
- 参考スコア(独自算出の注目度): 33.01076276348798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The large-scale digitization of educational assessment has made the continuous oversight of item banks both essential and complex. This paper presents Analytics for Quality Assurance for Item Pools (AQuAP), a dashboard environment for monitoring item quality and item bank health. AQuAP supports the operational implementation of the large scale item generation procedures for high-stakes tests as included in the Item Factory, a framework for automated and human-supported test development. The paper describes AQuAP in relationship with the process of item development, outlines the broader metric framework for item-pool quality assurance, and highlights the Effective Bank Size (EBS) as one central indicator of pool vitality. EBS quantifies how many independent test sessions can be constructed before content repetition occurs and, when coupled with exposure and usage metrics, provides insight into item bank security, diversity, and efficiency. We further introduce bank-health metrics, such as maximum exposure, maximum conditional exposure, adjusted effective bank size, and the rarely-administered fraction, all of which extend this picture of item utilization. AQuAP illustrates how operational analytics can translate psychometric concepts into quality assurance tools for high-volume, AI-enabled testing programs. This work is illustrated with the Duolingo English Test (DET) processes.
- Abstract(参考訳): 教育評価の大規模なデジタル化は、アイテムバンクの継続的な監視を本質的かつ複雑なものにしている。
本稿では,アイテム品質とアイテムバンクの健康状態を監視するダッシュボード環境であるAQuAP(Analytics for Quality Assurance for Item Pools)を提案する。
AQuAPは、自動化および人為的なテスト開発のためのフレームワークであるItem Factoryに含まれるように、大規模なアイテム生成手順の運用実装をサポートする。
本稿では,アイテム開発プロセスに関連してAQuAPを解説し,アイテムプール品質保証のための幅広い指標枠組みを概説し,エフェクト・バンク・サイズ(EBS)をプール活力の指標として強調する。
EBSは、コンテンツ繰り返しが発生する前に、どれだけ独立したテストセッションを構築できるかを定量化し、露出と利用のメトリクスと組み合わせることで、アイテムバンクのセキュリティ、多様性、効率に関する洞察を提供する。
さらに、最大露光、最大条件露光、調整された有効銀行規模、めったに管理されていない割合などの銀行健康指標を導入し、これら全てがアイテム利用のこの図を拡大する。
AQuAPは、運用分析がサイコメトリックの概念を高ボリュームのAI対応テストプログラムの品質保証ツールにどのように変換するかを説明している。
この研究はDuolingo English Test (DET)プロセスで説明されている。
関連論文リスト
- Offloading Score: Measuring AI Reliance Through Counterfactual Workflows [70.84727355516559]
私たちは、AIツールにオフロードされた認知活動の分断を定量化する、信頼度尺度であるオフロードスコアを導入します。
本研究は,本質的な計量妥当性評価と制御されたユーザスタディにより,オフロードスコアの検証を行う。
オフロードスコアは、時間制約設定における依存度を著しく高めることを示す。
論文 参考訳(メタデータ) (2026-05-28T05:44:31Z) - Decision Quality Evaluation Framework at Pinterest [0.36944296923226316]
この枠組みは、課題専門専門家(SME)がキュレートした高信頼のゴールデンセット(GDS)を中心にしている。
データセットのカバレッジを効率的に拡張するために、確率スコアを用いたインテリジェントな自動サンプリングパイプラインを導入する。
このフレームワークは、主観的な評価から、コンテンツ安全システムを管理するためのデータ駆動的で定量的なプラクティスへの移行を可能にする。
論文 参考訳(メタデータ) (2026-02-17T18:45:55Z) - Sola-Visibility-ISPM: Benchmarking Agentic AI for Identity Security Posture Management Visibility [0.36136619420474764]
基礎的なISPM可視性タスクに基づいてエージェントAIシステムを評価する最初のベンチマークである、Sola Visibility ISPM Benchmarkを紹介する。
このベンチマークでは、アイデンティティのインベントリと衛生上の問題に焦点が当てられ、Sola AI Agentが付属している。
77のベンチマーク質問に対して、エージェントは、専門家の精度0.84、厳密な成功率0.77で、高い総合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-11T18:36:33Z) - OIDA-QA: A Multimodal Benchmark for Analyzing the Opioid Industry Documents Archive [50.468138755368805]
オピオイド危機は公衆衛生にとって重要な瞬間である。
UCSF-JHU Opioid Industry Documents Archive(OIDA)に公開されているデータと文書
本稿では,文書属性に応じて元のデータセットを整理することで,この問題に対処する。
論文 参考訳(メタデータ) (2025-11-13T03:27:32Z) - Revolutionizing Database Q&A with Large Language Models: Comprehensive Benchmark and Evaluation [43.217701432032484]
DQABenchは、Large Language Models (LLMs)の最初の包括的なデータベースQAベンチマークである。
DQABenchは、評価データセットの生成、クリーニング、書き直しを自動化する革新的なLCMベースの手法を備えており、英語と中国語で20万以上のQAペアが別々に作られている。
さらに,本テストベッドは,QCR,RAG,TIG,Promptテンプレートエンジニアリング(PTE)といった基本的かつ先進的なコンポーネントを備えた,高度にモジュール化され,スケーラブルなデータベースQAテストベッドを提案する。
論文 参考訳(メタデータ) (2024-09-05T13:45:42Z) - Can I trust my fake data -- A comprehensive quality assessment framework
for synthetic tabular data in healthcare [33.855237079128955]
プライバシー上の懸念と規制上の要求に応えて、合成データの使用が提案されている。
医療におけるAI応用のためのSDの品質保証のための概念的枠組みを提案する。
現実のアプリケーションをサポートするために必要なステージを提案する。
論文 参考訳(メタデータ) (2024-01-24T08:14:20Z) - Blind Multimodal Quality Assessment: A Brief Survey and A Case Study of
Low-light Images [73.27643795557778]
ブラインド画像品質評価(BIQA)は、視覚信号の客観的スコアを自動的に正確に予測することを目的としている。
この分野での最近の発展は、ヒトの主観的評価パターンと矛盾しない一助的解によって支配されている。
主観的評価から客観的スコアへの低照度画像の一意なブラインドマルチモーダル品質評価(BMQA)を提案する。
論文 参考訳(メタデータ) (2023-03-18T09:04:55Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - Benchmarking Quality-Dependent and Cost-Sensitive Score-Level Multimodal
Biometric Fusion Algorithms [58.156733807470395]
本稿では,BioSecure DS2 (Access Control) 評価キャンペーンの枠組み内で実施したベンチマーク研究について報告する。
キャンペーンは、約500人の中規模施設における物理的アクセス制御の適用を目標とした。
我々の知る限りでは、これは品質ベースのマルチモーダル融合アルゴリズムをベンチマークする最初の試みである。
論文 参考訳(メタデータ) (2021-11-17T13:39:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。