論文の概要: The Fine-Tuning Trap: Evaluating Negative Transfer and the Role of PEFT in Sub-1B Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2606.06920v1
- Date: Fri, 05 Jun 2026 05:34:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.579384
- Title: The Fine-Tuning Trap: Evaluating Negative Transfer and the Role of PEFT in Sub-1B Mathematical Reasoning
- Title(参考訳): Sub-1Bの数学的推論における否定的伝達の評価とPEFTの役割
- Authors: Rahul Nair, Chun Tao,
- Abstract要約: フルファインチューニング(Full FT)は、300Mパラメータ以下のモデルの性能を積極的に損なう。
また,Low-Rank Adaptation (LoRA) とWeight-Decomposed LoRA (DoRA) を比較検討したところ,その強度はタスクによって異なることがわかった。
5M未満のアーキテクチャでは,すべてのアライメントサブ1Bモデルに対してPEFTをデフォルトとし,Full FTに対して警告する。
- 参考スコア(独自算出の注目度): 8.166960747155136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying Small Language Models (SLMs) on edge devices requires efficient fine-tuning strategies that adapt models to new tasks without degrading their general capabilities. In this study, we benchmark five sub-1B models (135M-1B) on mathematical reasoning tasks and uncover a critical vulnerability: Full Fine-Tuning (Full FT) actively harms performance in models under 300M parameters, often dropping accuracy below zero-shot baselines. This "negative transfer" makes Parameter-Efficient Fine-Tuning (PEFT) not just an efficiency preference, but a stability requirement. We find that while Low-Rank Adaptation (LoRA) and Weight-Decomposed LoRA (DoRA) perform comparably, their strengths vary by task; DoRA excels in complex reasoning (GSM8K), while LoRA dominates pattern matching (OrcaMath). In particular, Full FT is outperformed by LoRA on aligned models (Qwen2.5-0.5B) and even by simple 5-shot In-Context Learning on the smallest architectures (SmolLM2-135M). Based on these findings, we recommend defaulting to PEFT for all aligned sub-1B models and caution against Full FT for any architecture smaller than 500M parameters to prevent catastrophic forgetting. Reproduction of this work can be found at https://github.com/gulguluu/tiny-slm-finetune-compare.
- Abstract(参考訳): エッジデバイスに小さな言語モデル(SLM)をデプロイするには、一般的な能力を低下させることなく、新しいタスクにモデルを適応させる効率的な微調整戦略が必要である。
本研究では,5つのサブ1Bモデル (135M-1B) を数学的推論タスクでベンチマークし,致命的な脆弱性を明らかにする。
この「負の転送」は、パラメータ効率の良いファインチューニング(PEFT)を効率の優先だけでなく、安定性の要件にしている。
また,Low-Rank Adaptation (LoRA) とWeight-Decomposed LoRA (DoRA) が両立可能であるのに対して,DoRA は複雑な推論(GSM8K) に優れ,LoRA がパターンマッチング (OrcaMath) を支配していることがわかった。
特にフルFTは、整列モデル(Qwen2.5-0.5B)でLoRAより優れており、最小アーキテクチャ(SmolLM2-135M)で単純な5ショットのインコンテキスト学習でも優れている。
これらの結果に基づき, PEFT を全 PEFT モデルに対してデフォルトにすることを推奨し, 5M 未満のアーキテクチャに対して全 FT に対して警告を行い, 破滅的な忘れ込みを防止することを推奨する。
この作業の再現はhttps://github.com/gulguluu/tiny-slm-finetune-compareで見ることができる。
関連論文リスト
- Beyond LoRA vs. Full Fine-Tuning: Gradient-Guided Optimizer Routing for LLM Adaptation [15.4865294569737]
フルファインチューニング(FFT)は、高エントロピー知識注入に必要な表現塑性を提供する。
Low-Rank Adaptation (LoRA)は、多くのタスクはローランク空間の更新とLoRAの追加正規化の恩恵しか必要としないため、FFTのパフォーマンスに適合または超越することができる。
両トレーニング体制間の連続的なナビゲーションを可能にする統合フレームワークであるLoRAとFull (MoLF) Fine-Tuningを提案する。
論文 参考訳(メタデータ) (2026-05-08T01:38:58Z) - Don't Forget the Nonlinearity: Unlocking Activation Functions in Efficient Fine-Tuning [82.16625951603315]
NoRAは、固定活性化を学習可能な有理関数に置き換え、構造化された低ランク更新を数値化係数と分母係数に適用する。
CIFAR-10とCIFAR-100で訓練された視覚変換器では、NoRAはパラメータのわずか0.4%を更新しながら完全な微調整に適合または超過する。
NoRAは低次元機能部分空間への適応を制約し、暗黙的に更新の規模と方向を規則化する。
論文 参考訳(メタデータ) (2025-09-16T16:47:03Z) - NoRA: Nested Low-Rank Adaptation for Efficient Fine-Tuning Large Models [27.757883818520217]
Nested Low-Rank Adaptation (NoRA) はパラメータ効率の良い微調整のための新しいアプローチである。
外部のLoRA重みを凍結し、内部のLoRA設計を使用することで、NORAはコンパクトなパラメータ空間で正確なタスク適応を可能にする。
論文 参考訳(メタデータ) (2024-08-18T12:18:56Z) - MoELoRA: Contrastive Learning Guided Mixture of Experts on
Parameter-Efficient Fine-Tuning for Large Language Models [24.17147521556083]
本稿では,新しいPEFT手法であるMoELoRAを紹介する。
数学推論と常識推論のベンチマークにおいて,11のタスクについて実験を行った。
MoELoRAはLoRAよりも4.2%高い平均性能を達成し、いくつかのベンチマークで175B GPT-3.5と比較して競争性能を示した。
論文 参考訳(メタデータ) (2024-02-20T09:30:48Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。