論文の概要: Essential Subspace Merging for Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2606.19164v2
- Date: Sat, 20 Jun 2026 01:44:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:14.766207
- Title: Essential Subspace Merging for Multi-Task Learning
- Title(参考訳): マルチタスク学習のための基本部分空間マージ
- Authors: Longhua Li, Lei Qi, Xin Geng, Qi Tian,
- Abstract要約: タスク更新によって引き起こされる出力シフトを分析し、そのエネルギーが少数の主方向に集中していることを確認する。
残りのほとんどの方向は、タスク関連エネルギーをほとんど持たないが、複数のタスク更新にまたがる蓄積は、マージ中に深刻な干渉を引き起こす可能性がある。
ESDに基づいて,トレーニング不要な静的マージ手法であるEssential Subspace Merging (ESM)を導入する。
ESMをトレーニング不要な動的マージメソッドであるESM++に拡張し、タスク固有の残留物を低ランクの専門家に分解する。
- 参考スコア(独自算出の注目度): 78.5390284258307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model merging aims to enable multi-task learning by integrating the capabilities of multiple models fine-tuned from the same pre-trained checkpoint into a single model. Its core challenge is inter-task interference among task-specific parameter updates. In this paper, we analyze the output shifts induced by task updates and observe that their energy is concentrated in a small number of principal directions. We call the subspace spanned by these directions the essential subspace. In contrast, most remaining directions carry little task-relevant energy, but their accumulation across multiple task updates can cause severe interference during merging. Motivated by this observation, we propose Essential Subspace Decomposition (ESD), which decomposes each task update according to the principal components of its activation shift. Based on ESD, we introduce Essential Subspace Merging (ESM), a training-free static merging method that orthogonalizes and fuses essential components into one compact multi-task model. We further extend ESM to ESM++, a training-free dynamic merging method that decomposes task-specific residuals into low-rank experts and selects the most relevant expert through prototype-based routing during forward inference. Extensive experiments across multiple task sets and model scales demonstrate that ESM and ESM++ effectively preserves task knowledge while reducing inter-task interference. Code is available at https://github.com/kiddo127/ESM.
- Abstract(参考訳): モデルマージは、同じトレーニング済みのチェックポイントから微調整された複数のモデルの能力を単一のモデルに統合することで、マルチタスク学習を可能にすることを目的としている。
その主な課題はタスク固有のパラメータ更新間のタスク間干渉である。
本稿では,タスク更新によって引き起こされる出力変化を分析し,そのエネルギーが少数の主方向に集中していることを確認する。
我々はこれらの方向で区切られた部分空間を本質的な部分空間と呼ぶ。
対照的に、残りのほとんどの方向は、タスク関連エネルギーをほとんど持たないが、複数のタスク更新にまたがる蓄積は、マージ中に深刻な干渉を引き起こす可能性がある。
本稿では,その活性化シフトの主成分に応じて各タスクの更新を分解する Essential Subspace Decomposition (ESD) を提案する。
ESD(Essential Subspace Merging)は,本質的なコンポーネントを直交して1つのコンパクトなマルチタスクモデルに融合する,トレーニング不要な静的マージ手法である。
ESMをトレーニング不要な動的マージ手法であるESM++に拡張し、タスク固有残差を低ランクの専門家に分解し、前方推論中にプロトタイプベースのルーティングによって最も関連性の高いエキスパートを選択する。
複数のタスクセットとモデルスケールにわたる大規模な実験では、ESMとESM++がタスク知識を効果的に保存し、タスク間の干渉を減らすことが示されている。
コードはhttps://github.com/kiddo127/ESMで入手できる。
関連論文リスト
- PACT: Preserving Anchored Cores in Task-vectors for Model Merging [68.52455853496585]
モデルマージは、複数のタスク固有の細調整されたモデルを単一のマルチタスクモデルに結合することを目的としている。
既存のモデルマージアプローチのほとんどは、Task Arithmeticパラダイムに従っています。
本研究では,タスクベクトル内の固定されたタスク固有コア(LBW次元)を,事前学習した重みのサブ空間と補間を整合させることにより保存するPACTを提案する。
論文 参考訳(メタデータ) (2026-06-17T02:48:35Z) - Decomposing the Basic Abilities of Large Language Models: Mitigating Cross-Task Interference in Multi-Task Instruct-Tuning [58.90602461025722]
大規模言語モデル(LLM)におけるマルチタスクインストラクトチューニングは、主にマルチタスクインストラクトチューニングによって駆動されている。
トレーニングパラダイムは、異なるタスク間で共有されたパラメータよりも勾配が矛盾するため、クロスタスク干渉と呼ばれる重要な問題に悩まされる。
本稿では,LLMパラメータを基本能力を表す高特異値LoRAエキスパートに分解するBADITを提案する。
6LLMのSuperNIベンチマークで広範な実験を行い、実験結果から、BADITはSOTA法より優れ、クロスタスク干渉の程度を緩和できることが示された。
論文 参考訳(メタデータ) (2026-05-07T05:08:58Z) - Model Merging in the Essential Subspace [78.5390284258307]
モデルマージは、複数のタスク固有の細調整されたモデルを、追加のトレーニングなしで単一のマルチタスクモデルに統合することを目的としている。
広範囲の研究にもかかわらず、タスク干渉は依然として大きな障害であり、しばしば統合されたモデルの性能を損なう。
効率的なモデルマージのための堅牢なフレームワークであるESM(Essential Subspace Merging)を提案する。
論文 参考訳(メタデータ) (2026-02-23T00:33:38Z) - Purifying Task Vectors in Knowledge-Aware Subspace for Model Merging [83.5273168208788]
モデルマージは、個別に調整されたモデルのタスク固有の能力を、余分なトレーニングなしで単一のモデルに統合することを目的としている。
統合モデルは、タスクベクトルのタスク非関連冗長性に起因する競合により、しばしば顕著なパフォーマンス劣化に悩まされる。
本稿では,これらの課題を克服するために,知識対応サブ空間におけるTAsk Vectors (PAVE) の純粋化を提案する。
論文 参考訳(メタデータ) (2025-10-16T14:02:57Z) - StableMTL: Repurposing Latent Diffusion Models for Multi-Task Learning from Partially Annotated Synthetic Datasets [14.867396697566257]
部分学習のセットアップをゼロショット設定に拡張し、複数のデータセット上でマルチタスクモデルをトレーニングします。
我々の方法であるStableMTLは、遅延回帰のために画像生成装置を再利用する。
タスク毎の損失に対して、注意深いバランスを必要とするのではなく、統一された潜伏損失を採用し、より多くのタスクにシームレスなスケーリングを可能にします。
論文 参考訳(メタデータ) (2025-06-09T17:59:59Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。