論文の概要: Zero-order Parameter-free Optimization for LMO-based Methods: Novel Approach for Efficient Fine-tuning
- arxiv url: http://arxiv.org/abs/2606.14970v1
- Date: Fri, 12 Jun 2026 21:46:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.546026
- Title: Zero-order Parameter-free Optimization for LMO-based Methods: Novel Approach for Efficient Fine-tuning
- Title(参考訳): LMO法におけるゼロ次パラメータフリー最適化:効率的な微調整のための新しいアプローチ
- Authors: Dmitriy Bystrov, Daniil Medyakov, Dmitry Bylinkin, Aleksandr Beznosikov,
- Abstract要約: 大規模な微調整の大きな障害は、バックプロパゲーションのメモリオーバーヘッドである。
$texttAdaNAGED$は、勾配なしトレーニング、適応チューニング、非ユークリッド更新幾何学を統一するメソッドである。
- 参考スコア(独自算出の注目度): 46.539149169728624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large language models (LLMs) has become a central application of modern optimization, enabling pretrained models to adapt to diverse downstream tasks and domain-specific data. A major obstacle in large-scale fine-tuning is the memory overhead of backpropagation, which requires storing activations, gradients, and optimizer states. Zeroth-order (ZO) optimization offers a memory-efficient alternative, but its performance is highly sensitive to the stepsize and smoothing parameter, often requiring costly task-specific tuning. Parameter-free (PF) optimization addresses this issue by adapting algorithmic parameters without prior knowledge of problem-dependent constants. Moreover, large-scale fine-tuning can benefit from geometry-aware updates that account for the heterogeneous structure of parameter blocks, which can be modeled through methods that exploit linear minimization oracle (LMO). In this work, we study PF adaptation for LMO-based ZO optimization and introduce $\texttt{AdaNAGED}$, a method that unifies gradient-free training, adaptive tuning, and non-Euclidean update geometry. We establish convergence guarantees and validate the method on large-scale LLM fine-tuning task with $\texttt{OPT}-1.3\mathrm{B}$ model.
- Abstract(参考訳): 微調整型大規模言語モデル(LLM)は現代の最適化の中心的な応用となり、事前訓練されたモデルが様々な下流タスクやドメイン固有のデータに適応できるようにする。
大規模な微調整の大きな障害は、バックプロパゲーションのメモリオーバーヘッドであり、アクティベーション、グラデーション、オプティマイザ状態の保存が必要である。
ゼロオーダー最適化(ZO)はメモリ効率の代替となるが、その性能はステップサイズやスムーズなパラメータに非常に敏感であり、しばしばタスク固有のチューニングを必要とする。
パラメータフリー(PF)最適化は、問題依存定数の事前知識のないアルゴリズムパラメータを適用することでこの問題に対処する。
さらに、大規模な微調整は、線形最小化オラクル(LMO)を利用する手法によってモデル化できるパラメータブロックの不均一構造を考慮した幾何対応更新の恩恵を受けることができる。
本研究では,LMOに基づくZO最適化のためのPF適応について検討し,勾配なし学習,適応チューニング,非ユークリッド更新幾何学を統一する $\texttt{AdaNAGED}$ を導入する。
収束保証を確立し, $\texttt{OPT}-1.3\mathrm{B}$ モデルを用いて大規模 LLM 微調整タスク上での手法の検証を行う。
関連論文リスト
- From SGD to Muon: Adaptive Optimization via Schatten-p Norms [3.5975968496682484]
Muonのようなモダンな言語は、更新に行列的な幾何学的制約を課している。
現行のすべてのメソッドでは、更新ルールに対して固定LMOジオメトリを課している。
本稿では,プロキシ・最適更新LMOジオメトリを動的に選択するための,新しい効率的なデータ駆動基準を提案する。
論文 参考訳(メタデータ) (2026-05-19T12:47:41Z) - New Hybrid Fine-Tuning Paradigm for LLMs: Algorithm Design and Convergence Analysis Framework [52.69678300445233]
fine-tuning Large Language Models (LLMs) は通常、すべてのモデルパラメータを更新するフルきめ細やかな調整を必要とする。
PEFT(Efficient Fine-Tuning)は、パラメータの小さなサブセットを調整する。
ゼロ次最適化法と1次最適化法を組み合わせて,LLMとPEFTモジュールを共同で更新するハイブリッドファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2026-04-10T22:39:38Z) - Neural Network Training via Stochastic Alternating Minimization with Trainable Step Sizes [3.246129789918632]
ディープニューラルネットワークのトレーニングは本質的に非最適化問題である。
勾配降下(SGD)のような標準的なアプローチでは、パラメータを同時に更新する必要がある。
そこで本研究では,SAMTを用いた列車最小化手法を提案する。
SAMTは、最先端のメソッドに比べて、パラメータ更新が少なく、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2025-08-06T08:23:38Z) - ESSA: Evolutionary Strategies for Scalable Alignment [8.418036456622158]
我々は,前向き推論とブラックボックス最適化のみを用いて,Large Language Models (LLM) を整列する勾配のないフレームワークであるESSAを提案する。
ESSAはQwen2.5-Math-7Bのテスト精度をGSM8Kで12.6%、PRM800Kで14.8%改善し、IFEvalでLLaMA3.1-8Bの精度を22.5%向上させた。
大規模な設定では、ESSAは勾配ベースの方法よりもスケーリングが強い。
論文 参考訳(メタデータ) (2025-07-06T16:23:07Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。
我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。
微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。
これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文 参考訳(メタデータ) (2025-02-01T04:18:28Z) - Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文 参考訳(メタデータ) (2024-10-10T08:10:53Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。