論文の概要: The Order Matters: Sequential Fine-Tuning of LLaMA for Coherent Automated Essay Scoring
- arxiv url: http://arxiv.org/abs/2606.10327v1
- Date: Tue, 09 Jun 2026 02:23:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.267947
- Title: The Order Matters: Sequential Fine-Tuning of LLaMA for Coherent Automated Essay Scoring
- Title(参考訳): 順序:コヒーレント自動評価のためのLLaMAの逐次微調整
- Authors: Ali Keramati, Mark Warschauer,
- Abstract要約: 4ビット量子化を用いたパラメータ係数LoRAを用いたAES用LLaMA-3.1-8Bのタスク認識微調整について検討する。
i)リードを連続的に微調整し、次に位置を定め、次に証拠を主張し、結論付け、(ii)独立性(タスク固有のモデル)と(iii)ランダム化という3つの訓練カリキュラムを比較します。
- 参考スコア(独自算出の注目度): 2.6996154332513895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated Essay Scoring (AES) systems must judge interdependent discourse elements (e.g., lead, claim, evidence, conclusion), yet most approaches treat these in isolation, harming coherence and generalization. We investigate task-aware fine-tuning of LLaMA-3.1-8B for AES using parameter-efficient LoRA with 4-bit quantization and compare three training curricula: (i) Sequential (progressively fine-tuning on lead, then position, then claim, then evidence, then conclusion), (ii) Independent (task-specific models), and (iii) Randomized (shuffled multi-task). Experiments on the PERSUADE~2.0 corpus show that modeling task dependencies matters: Sequential fine-tuning yields the strongest overall results, including F1 scores of 65% (evidence) and 87% (conclusion) and corresponding accuracies of 63% and 85%, surpassing Independent training and outperforming a general-purpose LLaMA-70B baseline on conclusion despite its far larger capacity. Randomized training improves position scoring (57% F1) but is less consistent elsewhere. These findings indicate that (1) curriculum design aligned with discourse structure can materially improve AES, and (2) small, task-optimized models can be competitive with substantially larger Large Language Models (LLM), offering a practical path to scalable, cost-effective assessment. We release templates and implementation details to facilitate reproduction and future work on curriculum design for educational NLP.
- Abstract(参考訳): AES(Automated Essay Scoring)システムでは、相互依存的な談話要素(例えば、リード、クレーム、エビデンス、結論)を判断しなければならないが、ほとんどのアプローチはこれらを分離して扱い、一貫性と一般化を損なう。
パラメータ係数のLoRAと4ビット量子化を用いたAES用LLaMA-3.1-8Bのタスク認識微調整について検討し、3つの訓練カリキュラムを比較した。
一 逐次的(鉛の微調整、次に位置決め、次いで主張、証拠、そして結論)
(二)独立(タスク特化モデル)及び
(三)ランダム化(シャッフルマルチタスク)
F1スコアは65%(証拠)と87%(結論)で、それに対応するアキュラティは63%と85%で、独立トレーニングを超越し、LLaMA-70Bベースラインをはるかに大きな能力にもかかわらず上回る。
ランダムなトレーニングは、ポジションスコア(57% F1)を改善するが、他の場所では一貫性が低い。
これらの結果から,(1)談話構造に整合したカリキュラム設計は,AESを大幅に改善し,(2)大規模言語モデル(LLM)と競合し,スケーラブルで費用対効果の高い評価を行うことができることがわかった。
我々は,NLPのカリキュラム設計における再現と今後の作業を容易にするテンプレートと実装の詳細を公開している。
関連論文リスト
- Scaling Trends for Multi-Hop Contextual Reasoning in Mid-Scale Language Models [0.0]
大規模言語モデルにおけるマルチホップ文脈推論の制御に関する研究について述べる。
マルチエージェントシステムは逆パターンを示し、ルールベースのメソッドが失敗する推論タスクを最大80%達成する。
論文 参考訳(メタデータ) (2026-01-06T20:18:55Z) - Enhancing the Outcome Reward-based RL Training of MLLMs with Self-Consistency Sampling [90.87033586963828]
マルチモーダル大言語モデル(MLLM)のステップ・バイ・ステップ推論を洗練させる手段としては,アウトカム・リワード強化学習(RL)が一般的であり,ますます重要になっている。
この問題を修正するために,自己整合サンプリング(SCS)を提案する。
Qwen2.5-VL-7B-インストラクトに基づいて、SCSは、無視できる余分な計算を伴う6つのマルチモーダルベンチマークにおいて、最大7.7ポイントの精度を向上する。
論文 参考訳(メタデータ) (2025-11-13T18:59:57Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - Once Upon an Input: Reasoning via Per-Instance Program Synthesis [19.86168542588911]
PIPS(Per-Instance Program Synthesis)は、構造的フィードバックを用いて、インスタンスレベルでプログラムを生成し、洗練する手法である。
パフォーマンスをさらに向上するため、PIPSは直接推論とプログラム合成を動的に選択する信頼度基準をインスタンス毎に組み込んでいる。
論文 参考訳(メタデータ) (2025-10-26T21:58:33Z) - AutoLogi: Automated Generation of Logic Puzzles for Evaluating Reasoning Abilities of Large Language Models [86.83875864328984]
本稿では,オープンエンド論理パズルを自動合成する手法を提案し,それをバイリンガルベンチマークであるAutoLogiの開発に利用する。
提案手法は,プログラムベースの検証と制御可能な難易度を特徴とし,モデルの推論能力をよりよく区別する信頼性の高い評価を可能にする。
論文 参考訳(メタデータ) (2025-02-24T07:02:31Z) - LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs [103.0226977561914]
大規模言語モデルにおけるステップバイステップの視覚的推論を促進するための包括的フレームワークを提案する。
マルチステップ推論タスクの評価に特化して設計された視覚推論ベンチマークを導入する。
第二に,個々のステップの粒度で視覚的推論品質を評価する新しい指標を提案する。
第3に、マルチステップのカリキュラム学習アプローチを用いて学習したLlamaV-o1という新しいマルチモーダル視覚推論モデルを提案する。
論文 参考訳(メタデータ) (2025-01-10T18:59:51Z) - (WhyPHI) Fine-Tuning PHI-3 for Multiple-Choice Question Answering: Methodology, Results, and Challenges [0.0]
この研究は、マイクロソフトのPHI-3citeAbdin2024(コンパクトで効率的で複数の質問に答えるLLM)の可能性を探るものである。
PHI-3.5のMCQ処理は4.68から2.27に減少し、精度は62%から90.8%に向上した。
論文 参考訳(メタデータ) (2025-01-03T00:56:46Z) - The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - L3 Ensembles: Lifelong Learning Approach for Ensemble of Foundational
Language Models [15.726224465017596]
本稿では、未知のデータから意味のある表現を抽出し、構造化知識ベースを構築することに焦点を当てたアプローチを提案する。
我々は,GLUE や SuperGLUE などのベンチマークを含む様々な NLP タスクの有効性を検証する実験を行った。
提案したL3アンサンブル法は、細調整されたFLMと比較してモデル精度を4%36%向上させる。
論文 参考訳(メタデータ) (2023-11-11T06:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。