論文の概要: Demographic Metadata as Construct-Irrelevant Noise in DistilBERT-Based Automated Essay Scoring
- arxiv url: http://arxiv.org/abs/2606.21066v1
- Date: Fri, 19 Jun 2026 03:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 08:42:13.664122
- Title: Demographic Metadata as Construct-Irrelevant Noise in DistilBERT-Based Automated Essay Scoring
- Title(参考訳): DistilBERT-based Automated Essay Scoringにおける構造的非関連ノイズとしてのデモグラフィックメタデータ
- Authors: Teik Peng Ch'ng, Hui Na Chua,
- Abstract要約: 本研究では, DistilBERT を用いた AES モデルの予測精度, トレーニング収束, スコアパリティに及ぼす特定のマルチモーダル融合戦略の影響について検討した。
10倍のクロスバリデーションを用いて評価した結果,人口統計メタデータと入力の早期融合は,モデル全体の精度を著しく低下させることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated Essay Scoring (AES) systems are increasingly used to support teachers in managing grading workloads and to provide a supplementary rater in large-scale assessments. While human grading is frequently influenced by students' demographic characteristics, the efficacy of different strategies for integrating demographic metadata with textual input used to train AES models remains underexplored. This study investigates the impact of a specific multimodal fusion strategy - naive metadata concatenation - on the predictive accuracy, training convergence, and score parity of a DistilBERT-based AES model. A comparative analysis was conducted using the ASAP 2.0 dataset to evaluate a baseline model against an experimental model trained with input that concatenates tokenised text and demographic metadata using a naive multimodal fusion strategy. Evaluated via 10-fold cross-validation, the findings reveal that the early fusion of demographic metadata and the input significantly degrades the model's overall predictive accuracy. The baseline model achieved a Quadratic Weighted Kappa (QWK) of 0.727, which dropped to 0.656 upon integrating metadata. Furthermore, the experimental model exhibited higher validation loss (1.29) compared to the baseline model (1.25). The experimental model also displayed exacerbated scoring bias, reducing score parity instances from 15 to 12 out of 19 tests.
- Abstract(参考訳): AES(Automated Essay Scoring)システムは、段階的な作業の管理における教師の支援や、大規模評価における補助的なレーダの提供に、ますます利用されている。
人間の格付けは学生の人口統計学的特徴に影響されることが多いが、AESモデルのトレーニングに使用されるテキスト入力と人口統計学的メタデータを統合するための異なる戦略の有効性は未検討のままである。
本研究では,DistilBERTに基づくAESモデルの予測精度,トレーニング収束,スコアパリティに対する,特定のマルチモーダル融合戦略 – ナイーブメタデータ結合 – の影響について検討する。
ASAP 2.0データセットを用いて、トークン化されたテキストと人口統計のメタデータを単純なマルチモーダル融合戦略を用いて結合する入力で訓練された実験モデルに対して、ベースラインモデルを評価するために比較分析を行った。
10倍のクロスバリデーションを用いて評価した結果,人口統計メタデータと入力の早期融合は,モデル全体の予測精度を著しく低下させることがわかった。
ベースラインモデルはQuardratic Weighted Kappa (QWK) の0.727を達成し、メタデータの統合により0.656に低下した。
さらに,実験モデルでは,ベースラインモデル (1.25) と比較して高い検証損失 (1.29) を示した。
実験モデルでは, 評価バイアスが悪化し, 19点中15点から12点に低下した。
関連論文リスト
- Meta-Ensemble Learning with Diverse Data Splits for Improved Respiratory Sound Classification [4.790443834378345]
信頼性のある呼吸音分類モデルの訓練は、データセットのサイズや対象の多様性が制限されているため、依然として困難である。
本研究では,多様なデータ分割に基づくトレーニングベースモデルにより,予測の多様性を高めるメタアンサンブル学習手法について検討する。
ICBHIベンチマークでは66.49%のスコアに到達した。
論文 参考訳(メタデータ) (2026-04-27T06:38:57Z) - Investigating the Impact of Histopathological Foundation Models on Regressive Prediction of Homologous Recombination Deficiency [52.50039435394964]
回帰に基づくタスクの基礎モデルを体系的に評価する。
我々は5つの最先端基礎モデルを用いて、スライド画像全体(WSI)からパッチレベルの特徴を抽出する。
乳房、子宮内膜、肺がんコホートにまたがるこれらの抽出された特徴に基づいて、連続したRDDスコアを予測するモデルが訓練されている。
論文 参考訳(メタデータ) (2026-01-29T14:06:50Z) - The GT-Score: A Robust Objective Function for Reducing Overfitting in Data-Driven Trading Strategies [51.56484100374058]
GT-Scoreは、パフォーマンス、統計的重要性、一貫性、ダウンサイドリスクを統合する複合目的関数である。
GT-Scoreは、歩行前向きの検証において、ベースライン目的関数に対して、一般化比を98%改善する。
これらの結果から, 抗オーバーフィッティング構造を組み込むことにより, 定量的研究におけるバックテストの信頼性を向上させることが示唆された。
論文 参考訳(メタデータ) (2026-01-22T05:16:47Z) - Fine-tuning Pre-trained Audio Models for COVID-19 Detection: A Technical Report [0.9431368999053936]
本報告では、確立したベンチマークデータセットを用いて、新型コロナウイルス検出タスクにおける事前学習音声モデルの性能について検討する。
年齢と性別による厳密な人口階層化を実施し、人口特性と新型コロナウイルスの状況の急激な相関をモデルが悪用するのを防ぐ。
論文 参考訳(メタデータ) (2025-11-18T21:54:20Z) - Model-agnostic Mitigation Strategies of Data Imbalance for Regression [0.0]
データ不均衡は、回帰タスクにおいて広範囲にわたる課題として持続し、モデルパフォーマンスのバイアスを導入し、予測信頼性を損なう。
既存のサンプリング手法を構築・改善する高度な緩和手法を提案する。
モデルのアンサンブル(不均衡緩和で訓練されたモデルと、非バランスで訓練されたモデル)の構築は、これらの負の効果を著しく減少させることを実証する。
論文 参考訳(メタデータ) (2025-06-02T09:46:08Z) - Evaluating Sample Utility for Efficient Data Selection by Mimicking Model Weights [11.237906163959908]
マルチモーダルモデルは、大規模なWebcrawledデータセットでトレーニングされる。
これらのデータセットは、しばしばノイズ、バイアス、無関係な情報を含む。
Mimic Score を用いた効率的なモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2025-01-12T04:28:14Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - RoBLEURT Submission for the WMT2021 Metrics Task [72.26898579202076]
本稿では,共有メトリクスタスクであるRoBLEURTについて紹介する。
我々のモデルは10対の英語言語対のうち8対でWMT 2020の人間のアノテーションと最先端の相関に達する。
論文 参考訳(メタデータ) (2022-04-28T08:49:40Z) - Using Explainable Boosting Machine to Compare Idiographic and Nomothetic
Approaches for Ecological Momentary Assessment Data [2.0824228840987447]
本稿では,非線形解釈型機械学習(ML)モデルを用いた分類問題について検討する。
木々の様々なアンサンブルは、不均衡な合成データセットと実世界のデータセットを用いて線形モデルと比較される。
2つの実世界のデータセットのうちの1つで、知識蒸留法は改善されたAUCスコアを達成する。
論文 参考訳(メタデータ) (2022-04-04T17:56:37Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。