論文の概要: Sparse Subspace-to-Expert Sharing for Task-Agnostic Continual Learning
- arxiv url: http://arxiv.org/abs/2606.07500v1
- Date: Fri, 05 Jun 2026 17:53:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.881781
- Title: Sparse Subspace-to-Expert Sharing for Task-Agnostic Continual Learning
- Title(参考訳): タスク非依存型連続学習のためのスパースサブスペースとエクササイズの共有
- Authors: Fatema Siddika, Md Anwar Hossen, Tanwi Mallick, Ali Jannesari,
- Abstract要約: 既存のメソッドはパラメータを均一に扱い、特定のタスク知識と共有能力の区別に失敗する。
適応的なスパース部分空間分解によって可塑性・安定性の対立を解決するフレームワークであるタスク非依存型連続学習のためのスパースエキスパートの混合(SETA)を導入する。
SETAは、最先端の継続的な学習ベースラインと比較して、競争力や優れた総合的なパフォーマンスを達成できることを示す。
- 参考スコア(独自算出の注目度): 10.01449025634975
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Continual learning in Large Language Models (LLMs) is hindered by the plasticity-stability dilemma, where acquiring new capabilities often leads to catastrophic forgetting of previous knowledge. Existing methods typically treat parameters uniformly, failing to distinguish between specific task knowledge and shared capabilities. We introduce Mixture of Sparse Experts for Task Agnostic Continual Learning (SETA), a framework that resolves the plasticity-stability conflict through adaptive sparse subspace decomposition into task-specific expert modules. Unlike standard updates, where tasks compete for the same parameters, SETA separates knowledge into unique experts, designed to isolate task-specific patterns, and shared experts, responsible for capturing common features. This structure is maintained through adaptive elastic anchoring and a routing-aware regularization that jointly protect shared knowledge at both the weight and routing levels and enable a unified gating network to automatically retrieve the correct expert combination during inference. Extensive experiments across diverse domain-specific benchmarks demonstrate that SETA achieves competitive or superior overall performance relative to state-of-the-art continual learning baselines, with particularly strong retention of early-task knowledge and improved backward transfer on LLaMA-2 7B and Qwen3-4B.
- Abstract(参考訳): 大規模言語モデル(LLM)における継続的な学習は、可塑性-安定性ジレンマによって妨げられる。
既存のメソッドは通常、パラメータを均一に扱い、特定のタスク知識と共有能力の区別に失敗する。
本稿では,タスク固有のエキスパートモジュールへの適応的なスパース部分空間分解を通じて,可塑性と安定性の対立を解決するフレームワークである,タスク非依存型連続学習のためのスパースエキスパートの混合について紹介する。
タスクが同じパラメータを競合する標準的な更新とは異なり、SETAは知識を、タスク固有のパターンを分離するように設計されたユニークな専門家と、共通の特徴をキャプチャする責任を持つ共有専門家に分ける。
この構造は、適応的な弾性アンカーと、ウェイトレベルとルーティングレベルの両方で共有知識を共同で保護し、統一ゲーティングネットワークが推論中に正しい専門家の組み合わせを自動的に検索できるようにするルーティング対応正規化によって維持される。
様々なドメイン固有のベンチマークによる広範囲な実験により、SETAは最先端の継続的な学習ベースラインと比較して、競争力または優れた全体的なパフォーマンスを達成し、特に早期タスクの知識を強く保持し、LLaMA-2 7BとQwen3-4Bの後方転送を改善した。
関連論文リスト
- SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning [83.66308307152808]
マルチモーダル・インストラクション・チューニング(MCIT)のためのStAbilized Mixture-of-Experts(SAME)を提案する。
プロプライエタリは、サブスペースへのルーティングダイナミクスを分解し、タスク関連方向のみを更新することで、専門家の選択を安定化する。
また、トレーニング中に選択した専門家を凍結するためにアダプティブな専門家アクティベーションを導入し、冗長でクロスタスクな干渉を減らす。
論文 参考訳(メタデータ) (2026-02-02T11:47:06Z) - Split-on-Share: Mixture of Sparse Experts for Task-Agnostic Continual Learning [10.01449025634975]
大規模言語モデル(LLM)における連続学習は、可塑性安定性ジレンマによって妨げられる。
モデルをモジュラー部分空間に分解することで可塑性と安定性の衝突を解決するフレームワークであるSETAを紹介する。
SETA は,パラメータ効率のよい連続学習法よりも常に優れていることを示す。
論文 参考訳(メタデータ) (2026-01-24T22:39:22Z) - Beyond Redundancy: Diverse and Specialized Multi-Expert Sparse Autoencoder [59.89996751196727]
スパースオートエンコーダ(SAE)は、大規模な言語モデルを解釈するための強力なツールとして登場した。
SAEの隠蔽層は、空間的制約を満たすために高い次元性を持ち、結果として禁止的なトレーニングと推論コストをもたらす。
近年のMixture of Experts (MoE) アプローチは、SAEsによってゲートアクティベーションを持つより狭い専門家ネットワークにこの問題に対処しようとしている。
本稿では,(1)専門化を促進するために意味的に重み付けされた専門家サブセットを同時に関与する複数の専門家活性化,(2)適応的な高周波スケーリングによって多様性を高める特徴スケーリングという2つの重要なイノベーションを提案する。
論文 参考訳(メタデータ) (2025-11-07T22:19:34Z) - LEAF: A Robust Expert-Based Framework for Few-Shot Continual Event Detection [7.094483187879095]
LEAFは、連続イベント検出のための新しくて堅牢なエキスパートベースのフレームワークである。
各専門家はローランク適応(LoRA)行列でパラメータ化される。
セマンティックアウェアの専門家選択機構は、インスタンスを最も関係のある専門家に動的にルーティングし、専門家の専門化と知識干渉の低減を可能にする。
論文 参考訳(メタデータ) (2025-09-29T10:00:25Z) - One-Prompt Strikes Back: Sparse Mixture of Experts for Prompt-based Continual Learning [52.966712416640085]
本稿では,タスク固有戦略と共有プロンプト戦略の両方の利点を統合する新しいフレームワークであるSMoPEを提案する。
SMoPEはタスク固有のプロンプトメソッドを一貫して上回り、最先端のアプローチと競合する性能を達成する。
論文 参考訳(メタデータ) (2025-09-29T08:54:58Z) - CKAA: Cross-subspace Knowledge Alignment and Aggregation for Robust Continual Learning [80.18781219542016]
継続的学習(CL)は、シーケンシャルなタスクストリームから継続的に学習するAIモデルに権限を与える。
近年,パラメータ効率のよい微調整(PEFT)によるCL法が注目されている。
ミスリード型タスクIDに対するロバスト性を高めるために,クロスサブスペース・ナレッジアライメント・アグリゲーション(CKAA)を提案する。
論文 参考訳(メタデータ) (2025-07-13T03:11:35Z) - LLaVA-CMoE: Towards Continual Mixture of Experts for Large Vision-Language Models [21.888139819188105]
LLaVA-CMoEは、大規模言語モデルの継続的な学習フレームワークである。
Probe-Guided Knowledge Extensionメカニズムは、いつ、どこで新しいエキスパートを追加するべきかを決定する。
Probabilistic Task Locatorは各タスクを専用軽量ルータに割り当てる。
論文 参考訳(メタデータ) (2025-03-27T07:36:11Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。