論文の概要: The Hidden Power of Scaling Factor in LoRA Optimization
- arxiv url: http://arxiv.org/abs/2606.12883v1
- Date: Thu, 11 Jun 2026 04:19:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.577104
- Title: The Hidden Power of Scaling Factor in LoRA Optimization
- Title(参考訳): LoRA最適化におけるスケーリング係数の隠れ力
- Authors: Zicheng Zhang, Haoran Li, Jiaxing Wang, Guoqiang Gong, Anqi Li, Yudong Hu, Ting Xiong, Yurong Gao, Junxing Hu, Zhida Jiang, Yifeng Zhang, Pengzhang Liu, Qixia Jiang,
- Abstract要約: Low-Rank Adaptation (LoRA)では、スケーリング係数$が単に学習率を補完するものとして扱われることが多い。
学習率のスケーリングだけでは複製できない利得を提供するため、効果的な最適化の主役は$であることを示す。
我々は、LoRA-$という最小限のフレームワークを提案し、LoRAが標準の小さな学習率と互換性を持つように、その原則に$を復元する。
- 参考スコア(独自算出の注目度): 30.400211119439486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Low-Rank Adaptation (LoRA), the scaling factor $α$ is often treated as a mere complement to the learning rate, yet its role in optimization remains poorly understood. In this paper, we reveal that the scaling factor $α$ and the learning rate function differently, with $α$ emerging as the dominant driver of effective optimization, delivering gains that cannot be replicated by learning rate scaling alone. Through the synergy of extensive empirical analysis and a theoretical Signal-Drift framework, we uncover three findings into LoRA's scaling mechanism: First, LoRA's spectral suppression smooths the optimization landscape, rendering standard hyperparameters overly conservative and creating an optimization gap. Second, when leveraging this smoothness to accelerate convergence, $α$ outperforms the learning rate by amplifying the task signal without increasing the drift ratio. Third, the optimal scaling factor follows a sublinear relationship with the rank, well characterized by a square-root law with an unexpectedly large coefficient, revealing the insufficient scaling of existing rank-tied heuristics. Based on these insights, we propose LoRA-$α$, a minimalist framework that restores $α$ to its principled regime, making LoRA compatible with standard small learning rates. Extensive evaluations across diverse tasks demonstrate that LoRA-$α$ consistently improves performance while streamlining hyperparameter search, unleashing the learning potential of LoRA.
- Abstract(参考訳): Low-Rank Adaptation (LoRA)では、スケーリング係数の$α$はしばしば学習率の単なる補完として扱われるが、最適化におけるその役割はよく理解されていない。
本稿では,効率的な最適化の原動力としてα$が登場し,学習率のスケーリングだけでは再現できないゲインを提供するため,スケーリング係数の$α$と学習率の関数が異なることを明らかにした。
まず、LoRAのスペクトル抑圧は最適化のランドスケープを滑らかにし、標準のハイパーパラメータを過度に保守的にレンダリングし、最適化ギャップを生じさせます。
第二に、この滑らかさを活用して収束を加速すると、$α$はドリフト比を増大させることなくタスク信号の増幅により学習率を上回る。
第三に、最適スケーリング係数は、予想外の大きな係数を持つ平方根法則によって特徴づけられ、既存のランクタイドヒューリスティックスのスケーリングが不十分であることを明らかにする。
これらの知見に基づき、我々はLoRA-$α$という最小限のフレームワークを提案する。
多様なタスクにわたる広範囲な評価により、LoRA-$α$は、ハイパーパラメータ検索を合理化しながらパフォーマンスを継続的に改善し、LoRAの学習可能性を高めることが示されている。
関連論文リスト
- TLoRA: Task-aware Low Rank Adaptation of Large Language Models [8.568676581408239]
Low-Rank Adaptation (LoRA) は大規模言語モデルにおいてパラメータ効率の高い微調整法として広く採用されている。
既存のLoRA変種はこれらの要因の1つにのみ対応しており、多くの場合、訓練の複雑さを増大させるか、実用的な効率を低下させるコストがかかる。
本稿では,学習開始時の資源配分を協調的に最適化する統合フレームワークTLoRAを提案する。
論文 参考訳(メタデータ) (2026-04-20T11:43:55Z) - Learning Rate Matters: Vanilla LoRA May Suffice for LLM Fine-tuning [48.66442009036754]
Low-Rank Adaptation (LoRA)は、効率的な大規模言語モデルの微調整のための一般的なアプローチである。
本研究では,バニラ・ロラとともに4つの代表的ロラ変種を再評価する。
異なるLoRA手法が学習率の異なる範囲を好んでいることが判明した。
論文 参考訳(メタデータ) (2026-02-04T19:36:20Z) - BeamLoRA: Beam-Constraint Low-Rank Adaptation [51.52097743781401]
Low-Rank Adaptation (LoRA) はパラメータ効率の良い微調整法として広く採用されている。
本研究では,各LoRAモジュールを,各ランクが潜在的サブソリューションに対応するビームとして概念化するビームロラを提案する。
論文 参考訳(メタデータ) (2025-02-19T10:33:22Z) - GeLoRA: Geometric Adaptive Ranks For Efficient LoRA Fine-tuning [2.7446241148152253]
微調整された大言語モデル(LLM)は、全てのパラメータを更新する必要があるため、計算集約的である。
Low-Rank Adaptation (LoRA)は、重みのサブセットだけを変更することで効率を向上するが、表現性と計算コストのトレードオフをもたらす。
隠れ状態表現の内在的次元を計算し,LoRAランクを適応的に選択する新しいフレームワークGeLoRAを提案する。
論文 参考訳(メタデータ) (2024-12-12T13:04:54Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。
計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。
低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文 参考訳(メタデータ) (2024-07-25T17:57:12Z) - PRoLoRA: Partial Rotation Empowers More Parameter-Efficient LoRA [45.38491644250814]
部分回転型低ランク適応(PRoLoRA)は層内共有機構である。
PRoLoRAはその利点を保ち、ピアパラメータ共有手法の欠点を効果的に回避する。
実験によりPRoLoRAのパラメータ効率が著しく向上した。
論文 参考訳(メタデータ) (2024-02-24T13:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。