論文の概要: AiAWE: An Open-Source LLM Automated Writing Evaluation System Using LoRA-Adapted Instruction-Tuned Models
- arxiv url: http://arxiv.org/abs/2606.12801v1
- Date: Thu, 11 Jun 2026 01:55:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.5298
- Title: AiAWE: An Open-Source LLM Automated Writing Evaluation System Using LoRA-Adapted Instruction-Tuned Models
- Title(参考訳): AiAWE: LoRA適応命令調整モデルを用いたオープンソースのLLM自動筆記評価システム
- Authors: John Maurice Gayed,
- Abstract要約: AiAWEはオープンソースの文章評価システムであり、LoRA命令で訓練された大言語モデルを用いて議論的なエッセイをスコアする。
微調整されたGemmaモデルは、根平均2乗誤差0.474、二次重み付きKappa 0.828、一致率90.56%を人間のスコア+/-0.5の範囲内で達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This study presents AiAWE, an open-source automated writing evaluation system that scores argumentative essays using a LoRA-adapted instruction-tuned large language model (Gemma-3-27B-it). Using a proprietary Educational Testing Service (ETS) dataset of 480 TOEFL Independent Writing essays, we fine-tune Gemma-3-27B and LLaMA-3.3-70B under identical LoRA configurations on a 120-essay training subset and evaluate on the remaining 360 essays under identical inference quantization. The fine-tuned Gemma model achieves a root mean square error of 0.474, a quadratic weighted kappa of 0.828, and an agreement rate of 90.56% within +/- 0.5 of the human score, outperforming both the larger LLaMA-3.3-70B model and the fine-tuned GPT-3.5 baseline reported in prior work on the same dataset. Three findings are of broader interest: open-weight LLMs can match or exceed proprietary fine-tuning for rubric-aligned scoring; model scale is not a reliable predictor of downstream performance under LoRA adaptation; and identical LoRA hyperparameters produce qualitatively different adaptation behaviors across architectures. The production system runs on a consumer-grade server and is publicly accessible at https://app.awade.gec.waseda.ac.jp. LoRA adapters, application code, and fine-tuning YAMLs are publicly available through their respective repositories.
- Abstract(参考訳): 本研究では,ロラ適応型命令調整型大言語モデル(Gemma-3-27B-it)を用いて,議論的エッセイをスコアするオープンソースの自動筆記評価システムであるAiAWEについて述べる。
480TOEFLインディペンデント・エッセイによる独自の教育試験サービス(ETS)データセットを用いて、120回のトレーニングサブセット上で同じLoRA構成でGemma-3-27BとLLaMA-3.3-70Bを微調整し、同じ推論量子化の下で残りの360回のエッセイを評価する。
微調整されたGemmaモデルは、0.474の根平均二乗誤差、0.828の二次重み付きKappa、および、人間のスコアの+/-0.5で90.56%の一致率を達成し、より大きなLLaMA-3.3-70Bモデルと、同じデータセットで以前の研究で報告された微調整のGPT-3.5ベースラインの両方を上回った。
オープンウェイト LLM はルーブリックアライメントスコアリングのために独自の微調整を行うことができる; モデルスケールは、LoRA 適応下での下流性能の信頼性の高い予測子ではない; 同一の LoRA ハイパーパラメータは、アーキテクチャ全体にわたって質的に異なる適応挙動を生成する。
プロダクションシステムはコンシューマグレードのサーバ上で動作し、https://app.awade.gec.waseda.ac.jp.で公開されている。
LoRAアダプタ、アプリケーションコード、微調整YAMLは、それぞれのリポジトリから公開されている。
関連論文リスト
- Analyzing Quality-Latency-Resource Trade-offs in a Technical Documentation RAG Assistant Using LoRA Adaptation [0.0]
発電機のローランド適応(LoRA)を用いた検索拡張世代(RAG)システムにおける品質-遅延-リソーストレードオフについて検討する。
公式文書上で5,144の質問応答ペアのベンチマークを構築し、それを固定されたハイブリッド検索パイプライン(BGE-M3高密度、BGE-M3ネイティブ、Reciprocal Rank Fusion、クロスエンコーダ更新)と組み合わせる。
論文 参考訳(メタデータ) (2026-05-27T09:37:55Z) - LegalBench-BR: A Benchmark for Evaluating Large Language Models on Brazilian Legal Decision Classification [0.0]
ブラジルの法律テキスト分類における言語モデル評価のための最初の公開ベンチマークであるLegalBench-BRを紹介する。
データセットは、サンタカタリーナ州裁判所(TJSC)による3,105の手続きからなる。
クラスバランステストセットでは、BERTimbau-LoRAは87.6%の精度と0.87のマクロF1を達成する(Claude 3.5 Haikuより+22pp、GPT-4o miniより+28pp)。
論文 参考訳(メタデータ) (2026-04-20T22:00:02Z) - Accuracy and Efficiency Trade-Offs in LLM-Based Malware Detection and Explanation: A Comparative Study of Parameter Tuning vs. Full Fine-Tuning [0.0]
Low-Rank Adaptation (LoRA) fine-tuned Large Language Models (LLMs) は、人間の解釈可能な決定とマルウェア分類の説明を生成する際に、完全に微調整されたモデルの性能を近似することができる。
LoRAは、解釈可能性とリソース効率の現実的なバランスを提供し、説明品質を犠牲にすることなく、リソースに制約のある環境へのデプロイを可能にする。
論文 参考訳(メタデータ) (2025-11-24T19:37:13Z) - AttackQA: Development and Adoption of a Dataset for Assisting Cybersecurity Operations using Fine-tuned and Open-Source LLMs [0.0]
大規模言語モデル(LLM)は、ユーザクエリに対する応答を生成するために微調整される。
本研究では,AttackQAと呼ばれるサイバーセキュリティ質問応答(Q&A)データセットを開発する。
我々は、セキュリティオペレーションセンターのアナリスト向けに設計されたRAGベースのQ&Aシステムを構築するためにそれを利用している。
論文 参考訳(メタデータ) (2024-11-01T23:03:40Z) - LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T05:24:41Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report [3.304521604464247]
ローランク適応(ローランク適応、LoRA)は、最も広く採用されている手法の一つである。
大規模言語モデル(LLM)の効率的な微細チューニング(PEFT)
本研究の目的は,LoRAで微調整されたLLMを実世界の応用に適用し,学習の可能性を評価することである。
論文 参考訳(メタデータ) (2024-04-29T04:01:45Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。