論文の概要: GRASP: Gradient-Aligned Sequential Parameter Transfer for Memory-Efficient Multi-Source Learning
- arxiv url: http://arxiv.org/abs/2606.14900v1
- Date: Fri, 12 Jun 2026 19:10:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.447825
- Title: GRASP: Gradient-Aligned Sequential Parameter Transfer for Memory-Efficient Multi-Source Learning
- Title(参考訳): Gradient-Aligned Sequential Parameter Transfer for Memory-Efficient Multi-Source Learning
- Authors: Mary Isabelle Wisell, Nicholas Jacobs, Aayush Manandhar, Salimeh Yasaei Sekeh,
- Abstract要約: マルチソーストランスファー学習は、基本的なスケーラビリティのボトルネックに直面している。
我々は,O(1)メモリ消費を維持しつつ,優れた知識統合を実現するGRASP(Gradient-Aligned Sequential Transfer)を提案する。
- 参考スコア(独自算出の注目度): 3.2785412779198695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-source transfer learning faces a fundamental scalability bottleneck: existing approaches require either loading all K source models into memory simultaneously during parameter fusion, requiring O(K) memory, or deploying all models at inference time, making production deployment infeasible. We propose GRASP (Gradient-Aligned Sequential Parameter Transfer), which achieves superior knowledge integration while maintaining O(1) memory consumption through three key innovations: (1) sequential processing that merges one source at a time into an evolving target model, (2) parameter-wise gradient alignment that selectively transfers only parameters whose optimization directions align with the target domain, avoiding negative transfer, and (3) iterative fine-tuning that adapts transferred knowledge before integrating the next source. Extensive experiments across three continual learning benchmarks (Yearbook, CLEAR-10, CLEAR-100) spanning 10 to 108-year temporal distribution shifts and four architectures (1.3M to 25.6M parameters) demonstrate that GRASP achieves 93.5% mean accuracy over all datasets and architectures compared to ensemble method's 71.7% accuracy while requiring only constant memory versus K models for standard multi-source fusion. Critically, GRASP's sequential previously merged models and scales to arbitrarily many sources without memory growth, making it uniquely suitable for resource-constrained deployment and continually evolving source domains.
- Abstract(参考訳): 既存のアプローチでは、パラメータの融合中にすべてのKソースモデルを同時にメモリにロードするか、O(K)メモリを必要とするか、推論時にすべてのモデルをデプロイする必要がある。
本稿では,(1)1つのソースを一度に1つのターゲットモデルにマージする逐次処理,(2)最適化方向がターゲットドメインに整合するパラメータのみを選択的に転送するパラメータワイドアライメントアライメント,(3)次のソースを統合する前に転送された知識を適応する反復的微調整,という3つの重要なイノベーションを通じて,O(1)メモリ消費を維持しながら優れた知識統合を実現するGRASPを提案する。
連続学習ベンチマーク(Yearbook, CLEAR-10, CLEAR-100)は10年から108年にわたる時間分布シフトと4つのアーキテクチャ(1.3Mから25.6Mパラメータ)にまたがる大規模な実験により、GRASPは標準のマルチソース核融合のKモデルに対して、アンサンブル法では71.7%の精度で全てのデータセットやアーキテクチャに対して93.5%の平均精度を達成した。
重要な点として、GRASPの逐次的にマージされたモデルとスケールは、メモリの増大なしに任意の多くのソースに拡張され、リソース制約のあるデプロイメントと継続的なソースドメインに一意に適合する。
関連論文リスト
- CMAP: Cross-Modal Adaptive Prompting for Multi-Domain Task-Incremental Learning [3.1368611610608856]
テキスト空間のタスクルーティングは、凍結されたCLIPテキストプロトタイプとコサイン類似のビジュアルガウスマッチングを置き換える。
視覚テキストの信頼度は、単一ガウスのクラスモデリングをK平均視覚プロトタイプとタスク校正しきい値の下でのクロスモーダルアライメントスコアに置き換える。
MTILベンチマークは118.7%と1201のクラスで74.2%のTransfer、80.5%のAverage、そして8のLast Under Order-Iを達成した。
論文 参考訳(メタデータ) (2026-05-25T11:09:48Z) - Sig2Model: A Boosting-Driven Model for Updatable Learned Indexes [6.133666849556217]
Sig2Modelは効率的で適応的な学習指標であり、3つの主要な手法による再学習コストを最小限に抑える。
Sig2Modelは、トレーニングコストを最大20倍に削減し、最大3倍高いQPSを実現し、最大1000倍のメモリを使用する。
論文 参考訳(メタデータ) (2025-09-25T06:07:13Z) - Transition Models: Rethinking the Generative Learning Objective [68.16330673177207]
有限時間間隔で状態遷移を解析的に定義する連続時間力学方程式を導入する。
これは、任意のステップ遷移に適応する新しい生成パラダイムである遷移モデル(TiM)をもたらす。
TiMは最先端のパフォーマンスを達成し、SD3.5 (8Bパラメータ)やFLUX.1 (12Bパラメータ)といった主要なモデルを超える。
論文 参考訳(メタデータ) (2025-09-04T17:05:59Z) - Efficient Multi-Source Knowledge Transfer by Model Merging [6.472612871493117]
マルチソーストランスファー学習は、適応性を高め、再学習コストを削減するための有望な道である。
既存のアプローチは本質的に粗い粒状であり、粒状知識抽出に必要な精度を欠いている。
これらの制約に対処するために,Singular Value Decomposition (SVD) を利用して,まず各ソースモデルを基本的なランク1のコンポーネントに分解する。
その後のアグリゲーションステージは、すべてのソースから最も有能なコンポーネントのみを選択し、その結果、前の効率性と精度の制限を克服する。
論文 参考訳(メタデータ) (2025-08-26T18:31:38Z) - Gradient-based Fine-Tuning through Pre-trained Model Regularization [20.823624386591902]
重み行列の行や列を更新する効率的な勾配ベースおよび正規化微調整法(GRFT)を提案する。
GRFTは最先端のパフォーマンスを実現し、GPS、Adapter Tuning、LoRAといった既存の手法を超越している。
論文 参考訳(メタデータ) (2025-06-14T14:41:03Z) - Predictable Scale: Part I, Step Law -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [59.369484219304866]
我々は100兆のトークンをスクラッチから3,700以上の大規模言語モデル(LLM)に対する前例のない経験的調査訓練を実施している。
ステップ法則(ステップ法)と呼ばれる,LLM事前学習におけるハイパーパラメータ最適化のための普遍的スケーリング法則を確立する。
我々の推定オプティマは, 排他的探索によって得られた世界最高の性能から, テストセットの0.094%しか逸脱しない。
論文 参考訳(メタデータ) (2025-03-06T18:58:29Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Heterogenous Multi-Source Data Fusion Through Input Mapping and Latent Variable Gaussian Process [8.32027826756131]
提案するフレームワークは,3つの工学的ケーススタディに基づいて実証および解析を行った。
単一のソースモデルに対して予測精度が向上し、変換されるがソースモデルは認識されない。
論文 参考訳(メタデータ) (2024-07-15T22:27:04Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。