論文の概要: PACT: Preserving Anchored Cores in Task-vectors for Model Merging
- arxiv url: http://arxiv.org/abs/2606.18627v2
- Date: Fri, 19 Jun 2026 07:07:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-23 13:41:30.928145
- Title: PACT: Preserving Anchored Cores in Task-vectors for Model Merging
- Title(参考訳): PACT: モデルマージのためのタスクベクタにおけるAnchored Coreの保存
- Authors: Ningyuan Shi, Zhipeng Zhou, Hao Wang, Chunyan Miao, Peilin Zhao,
- Abstract要約: モデルマージは、複数のタスク固有の細調整されたモデルを単一のマルチタスクモデルに結合することを目的としている。
既存のモデルマージアプローチのほとんどは、Task Arithmeticパラダイムに従っています。
本研究では,タスクベクトル内の固定されたタスク固有コア(LBW次元)を,事前学習した重みのサブ空間と補間を整合させることにより保存するPACTを提案する。
- 参考スコア(独自算出の注目度): 68.52455853496585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging has emerged as a training-free alternative to multi-task learning, aiming to combine multiple task-specific fine-tuned models into a single multi-task model. Most existing model merging approaches follow the Task Arithmetic paradigm, which decomposes fine-tuned weights into pre-trained parameters and task vectors, and performs merging exclusively in the task-vector space. The effectiveness of this paradigm implicitly relies on the assumption that task-specific knowledge is encoded solely within task vectors. We argue that this assumption generally does not hold due to the intrinsic task preferences of pre-trained models. Specifically, we identify \textbf{Load-Bearing Wall (LBW) dimensions}, namely some task-critical knowledge that remains embedded in the pre-trained weights rather than being fully transferred into task vectors. We characterize LBW dimensions from both scalar-weight and subspace perspectives, thereby covering the major paradigms of existing model merging methods. Our analysis reveals that, by ignoring LBW dimensions, task-vector-based approaches fail to fully resolve task conflicts and may inadvertently damage task-specific knowledge encoded in the pre-trained model, leading to degradation. To address this issue, we propose PACT, which preserves the anchored task-specific cores (i.e., LBW dimensions) within task vectors by aligning their orthogonal complements with the subspace of the pre-trained weights. These aligned subspace components are then removed from the task vectors before applying existing model merging algorithms. Furthermore, we develop an efficient variant based on randomized SVD to improve scalability. PACT can be seamlessly integrated with existing methods. Extensive experiments across multiple benchmarks demonstrate that PACT consistently enhances mainstream model merging approaches and establishes new state-of-the-art performance.
- Abstract(参考訳): モデルマージは、複数のタスク固有の細調整されたモデルを単一のマルチタスクモデルに組み合わせることを目的として、マルチタスク学習のトレーニング不要の代替品として登場した。
既存のモデルマージアプローチのほとんどは、微調整された重みを事前訓練されたパラメータとタスクベクトルに分解し、タスクベクトル空間でのみマージするタスク算術パラダイムに従っている。
このパラダイムの有効性は、タスク固有の知識がタスクベクトルにのみエンコードされているという仮定に暗黙的に依存している。
この仮定は、訓練済みモデルの本質的なタスク嗜好のため、一般的には成り立たないと我々は主張する。
具体的には、タスクベクトルに完全に変換されるのではなく、トレーニング済みの重みに埋もれたままのタスククリティカルな知識である、 \textbf{Load-Bearing Wall (LBW) 次元を識別する。
我々は,LBW次元をスカラーウェイトとサブスペースの両方の観点から特徴付け,既存のモデルマージ手法の主要なパラダイムを網羅する。
分析の結果,LBW次元を無視したタスクベクタベースのアプローチでは,タスク競合を完全に解決できず,事前学習したモデルで符号化されたタスク固有知識に不注意にダメージを与える可能性が示唆された。
この問題に対処するため,本論文では,タスクベクトル内の固定されたタスク固有コア(LBW次元)を,事前学習した重みの部分空間に直交補関数を整列させることにより保存するPACTを提案する。
これらのアライメントされたサブスペースコンポーネントは、既存のモデルマージアルゴリズムを適用する前にタスクベクトルから削除される。
さらに,拡張性を向上させるために,ランダム化SVDに基づく効率的な変種を開発する。
PACTは既存のメソッドとシームレスに統合できる。
複数のベンチマークにわたる大規模な実験は、PACTが主流モデルのマージアプローチを一貫して強化し、新しい最先端のパフォーマンスを確立することを実証している。
関連論文リスト
- Model Merging: Foundations and Algorithms [4.528573838858818]
この論文はモデルマージを研究し、独立に訓練されたニューラルネットワークを直接重み空間で組み合わせる。
C$2$M$3$は、Frank-Wolfe最適化に基づくサイクル一貫性のマージアルゴリズムである。
マルチタスク設定では、まずタスクベクトルを近似勾配として理論的に記述する。
次に,TSV幾何を用いた入力適応型ルーティング手法であるMASSを提案し,推定時にタスク関連部分空間を選択する。
論文 参考訳(メタデータ) (2026-05-02T19:06:35Z) - Model Merging in the Essential Subspace [78.5390284258307]
モデルマージは、複数のタスク固有の細調整されたモデルを、追加のトレーニングなしで単一のマルチタスクモデルに統合することを目的としている。
広範囲の研究にもかかわらず、タスク干渉は依然として大きな障害であり、しばしば統合されたモデルの性能を損なう。
効率的なモデルマージのための堅牢なフレームワークであるESM(Essential Subspace Merging)を提案する。
論文 参考訳(メタデータ) (2026-02-23T00:33:38Z) - Purifying Task Vectors in Knowledge-Aware Subspace for Model Merging [83.5273168208788]
モデルマージは、個別に調整されたモデルのタスク固有の能力を、余分なトレーニングなしで単一のモデルに統合することを目的としている。
統合モデルは、タスクベクトルのタスク非関連冗長性に起因する競合により、しばしば顕著なパフォーマンス劣化に悩まされる。
本稿では,これらの課題を克服するために,知識対応サブ空間におけるTAsk Vectors (PAVE) の純粋化を提案する。
論文 参考訳(メタデータ) (2025-10-16T14:02:57Z) - No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces [17.69597528370121]
モデルマージは、複数のタスク固有のモデルの重みを単一のマルチタスクモデルに統合する。
この問題に対する最近の関心にもかかわらず、シングルタスクモデルと組み合わせたモデルの間には大きなパフォーマンスギャップが残っている。
タスク固有成分とマージ行列の特異成分のアライメントは,性能改善と強く相関していることを示す。
論文 参考訳(メタデータ) (2025-02-07T14:22:56Z) - Task Arithmetic in Trust Region: A Training-Free Model Merging Approach to Navigate Knowledge Conflicts [13.356826891549856]
マルチタスクモデルマージは、複数の微調整されたモデルから知識を統合するための効率的なソリューションを提供する。
Task Arithmetic (TA) の有望なパフォーマンスにもかかわらず、タスクベクトル間で衝突が発生する可能性がある。
本稿では,信頼領域をモデルパラメータ空間の次元として定義するタスク算術的信頼領域(TATR)を提案する。
論文 参考訳(メタデータ) (2025-01-25T04:09:56Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [72.10987117380584]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存のメソッドは、競合を引き起こす一方で、パフォーマンスにとって重要なタスク固有の情報を捨てている。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。
余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文 参考訳(メタデータ) (2024-11-27T20:08:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。