論文の概要: Predicting Mergeability of Parameter-Efficient Fine-Tuning Updates
- arxiv url: http://arxiv.org/abs/2606.19549v1
- Date: Wed, 17 Jun 2026 19:40:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.511697
- Title: Predicting Mergeability of Parameter-Efficient Fine-Tuning Updates
- Title(参考訳): パラメータ効率の良い微調整更新のマージ可能性予測
- Authors: Lin Tang, Wei Zhang, Jing Li, Hongyu Chen, Ming Zhao, Yuxuan Wang,
- Abstract要約: 低ランク適応により、多くのドメイン特化言語モデルアダプタのトレーニングが安価になる。
トレーニングの最初の数パーセントで測定された信号から予測できることが示されています。
これらの信号を軽量な予測器であるMergeProbeにパッケージ化する。
- 参考スコア(独自算出の注目度): 14.79638146416283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-rank adaptation (LoRA) makes it cheap to train many domain- and task-specific language model adapters, but whether two adapters can be merged is usually discovered only after both have been fully trained and evaluated. This late feedback is costly: adapters that are strong in isolation can interfere destructively once their updates are combined. We ask whether this outcome can be anticipated. We formalize adapter mergeability as the degree to which an adapter preserves its single-task utility after merging, and show that it can be forecast from signals measured in the first few percent of training -- chiefly how the low-rank updates and their gradients align across tasks and how much they disturb shared representations. We package these signals into MergeProbe, a lightweight predictor that estimates pairwise and set-level retention and turns the estimate into a concrete decision: merge directly, reweight, prune, or route. On MERGE-PEFT, a five-domain benchmark spanning math, code, science, instruction following, and safety, MergeProbe attains the best average and worst-case retention among strong interference-aware merge baselines while adding far less deployment overhead than full task routing. This turns LoRA merging from a post-hoc engineering step into an anticipatory measurement problem.
- Abstract(参考訳): ローランク適応(LoRA)は、多くのドメイン特化言語モデルアダプタとタスク特化言語モデルアダプタのトレーニングを安くするが、2つのアダプタをマージできるかどうかは通常、両方が完全に訓練され、評価された後にのみ見つかる。
この遅れたフィードバックはコストがかかる: 独立して強いアダプタは、アップデートが組み合わされると破壊的に干渉する可能性がある。
私たちはこの結果が期待できるかどうか尋ねる。
我々は、アダプタのマージ可能性を、アダプタがマージ後のシングルタスクユーティリティを保存する度合いとして形式化し、トレーニングの最初の数パーセントで測定された信号から予測できることを示します。
これらの信号を、ペアワイズとセットレベルの保持を推定する軽量な予測器であるMergeProbeにパッケージ化し、その推定結果を、直接マージ、リウェイト、プルー、ルートといった具体的な決定に変換する。
MERGE-PEFTは、数学、コード、科学、命令従順、安全性にまたがる5つのドメインのベンチマークである。MergeProbeは、強い干渉を意識したマージベースラインの中で、最も平均的で最悪の保持を達成し、完全なタスクルーティングよりもはるかに少ないデプロイメントオーバーヘッドを付加する。
これによりLoRAは、ポストホックエンジニアリングの段階から、予想される測定問題へと統合される。
関連論文リスト
- When Model Merging Breaks Routing: Training-Free Calibration for MoE [67.27839627141972]
Hessian-Aware Router (HARC) は、二階曲率情報を利用してマージされたルータを認識できるトレーニングフリーのフレームワークである。
数学的推論とコード生成タスクの実験は、HARCが様々なMoEマージベースライン間のルーティングの分解を効果的に軽減していることを示している。
論文 参考訳(メタデータ) (2026-06-02T09:33:33Z) - Posterior Augmented Flow Matching [64.1559809786948]
後拡張フローマッチング(PAFM)はフローマッチング(FM)の一般化である
PAFMは、異なるモデルスケールで最大3.4FID50KでFMよりも改善されていることを示す。
論文 参考訳(メタデータ) (2026-05-01T17:59:59Z) - Label-Free Cross-Task LoRA Merging with Null-Space Compression [50.63908869296697]
我々は,ラベルフリーで出力に依存しない手法であるNull-Space Compression (NSC) Mergingを紹介した。
NSCは、従来のメソッドがタスクのサブセットに収まるバランスの取れたゲインを持つ20の異種視覚タスクに対して、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-27T11:34:41Z) - Surprised by Attention: Predictable Query Dynamics for Time Series Anomaly Detection [1.7751300245073598]
AxonADは、マルチヘッドアテンションクエリの進化を短い水平方向予測可能なプロセスとして扱う教師なし検出器である。
テール集約型クエリミスマッチスコアは、最近のタイムステップで予測されたクエリとターゲットクエリの相違を測定する。
インターバルアノテーションを用いた車内テレメトリでは、AxonADは強力なベースライン上でのランキング品質と時間的ローカライゼーションを改善している。
論文 参考訳(メタデータ) (2026-03-13T11:40:51Z) - When Domain Pretraining Interferes with Instruction Alignment: An Empirical Study of Adapter Merging in Medical LLMs [0.6345523830122167]
大規模言語モデルは、ドメイン適応と命令アライメントを組み合わせる際に驚くべきアダプタ干渉を示す。
医学LLMのための2段階のLORAパイプラインについて検討し、ドメイン指向事前トレーニング(PT)と教師付き微調整(SFT)を個別に訓練し、後にマージした。
論文 参考訳(メタデータ) (2026-01-26T10:54:06Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - MerA: Merging Pretrained Adapters For Few-Shot Learning [71.44422347502409]
モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。
2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-30T12:10:17Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。