論文の概要: Routing-Aware Expert Calibration for Machine Unlearning in Mixture-of-Experts Language Models
- arxiv url: http://arxiv.org/abs/2606.10338v1
- Date: Tue, 09 Jun 2026 02:33:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.2735
- Title: Routing-Aware Expert Calibration for Machine Unlearning in Mixture-of-Experts Language Models
- Title(参考訳): 実験用混合言語モデルにおける機械学習のためのルーティングアウェアエキスパート校正
- Authors: Jingyi Xie, Yijun Lin, Yinjiang Xiong, Zhikun Zhang, Sai Li,
- Abstract要約: 忘れたデータはしばしば専門家の小さなサブセットを不均等に活性化するが、これらの専門家は保持データからより弱いアクティベーションを受ける可能性がある。
この、あるルーティングミスマッチは、未学習の時に非正規化されている、忘れクリティカルな専門家を残します。
トークンレベルの保持損失を再重み付けして保持率を校正するTRACEを提案する。
- 参考スコア(独自算出の注目度): 12.586017857752672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine unlearning is increasingly important for large language models, yet unlearning in Mixture-of-Experts (MoE) architectures remains underexplored. Unlike dense models, MoE architectures employ a router at each layer to assign each token to a sparse subset of experts. In this work, we observe that forget data often activates a small subset of experts disproportionately, while these experts may receive much weaker activation from retain data. This forget--retain routing mismatch can leave forget-critical experts under-regularized during unlearning. To address this, we propose \textbf{TRACE}, Targeted Routing-Aware Calibration of Experts, for MoE unlearning. TRACE first detects forget-critical experts from offline activation statistics, and then calibrates retain regularization by reweighting token-level retain losses so that each selected expert's retain-side activation frequency better matches its forget-side counterpart. Experiments on WMDP and MUSE-BOOKS across multiple MoE LLMs show that TRACE consistently improves the forget-utility trade-off, yielding a 9\% relative utility improvement over the strongest baseline under comparable forgetting quality and the best performance on three out of four MUSE-BOOKS metrics.
- Abstract(参考訳): 機械学習は大規模言語モデルではますます重要になっているが、Mixture-of-Experts (MoE)アーキテクチャでは未学習のままである。
密度の高いモデルとは異なり、MoEアーキテクチャは各層にルータを使用し、各トークンを専門家のまばらなサブセットに割り当てる。
この研究では、忘れたデータはしばしば専門家の小さなサブセットを不均等に活性化するのに対し、これらの専門家は保持データからより弱いアクティベーションを受ける可能性があることを観察する。
この、あるルーティングミスマッチは、未学習の時に非正規化されている、忘れクリティカルな専門家を残します。
そこで本稿では,MoE アンラーニングのための 'textbf{TRACE}, Targeted Routing-Aware Calibration of Experts を提案する。
TRACEは、まずオフラインアクティベーション統計から忘れクリティカルな専門家を検出し、次にトークンレベルの保持損失を再重み付けすることで正規化を維持する。
複数のMOE LLMに対するWMDPとMUSE-BOOKSの実験により、TRACEは忘れユーティリティトレードオフを一貫して改善し、最も高いベースラインよりも96%改善し、4つのMUSE-BOOKS指標のうち3つで最高の性能を示した。
関連論文リスト
- Eigenvectors of Experts are Training-free Non-collapsing Routers [14.774596844618396]
SMOE(Sparse Mixture of Experts)アーキテクチャは、入力トークンを専門専門家のサブセットにルーティングすることで、LLM(Large Language Models)のトレーニング効率を向上させる。
彼らの顕著な成功にもかかわらず、SMoEモデルのトレーニングと推論の両方が専門家の崩壊問題に悩まされている。
本稿では, 崩壊問題に対処するために, 専門家のスペクトル特性を利用する新しい, トレーニング不要なフレームワークであるSingular Value Decomposition SMoEを提案する。
論文 参考訳(メタデータ) (2026-05-29T08:27:10Z) - Scaling Multi-Node Mixture-of-Experts Inference Using Expert Activation Patterns [10.028141800987548]
スケールでのMoE推論は、専門家の負荷不均衡と非効率なトークンルーティングによってボトルネックとなる。
Llama 4 Maverick, DeepSeek V3-671B, Qwen3-230B-A22B など, SOTA のオープンソース MoE モデルについて検討した。
これらの知見から,ワークロード対応のマイクロバッチグループ化と専門家配置戦略を提案する。
論文 参考訳(メタデータ) (2026-04-25T05:33:03Z) - Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts [27.40662720929157]
Mixture-of-Experts (MoE) は大規模言語モデルをスケールするための主要なアーキテクチャとなっている。
本稿では,専門家数を増やすことで,MoE容量を段階的に拡大する専門家アップサイクリングを提案する。
筆者らの7B-13B総合パラメータ実験では,GPU時間の32%を節約しながら,検証損失の固定サイズベースラインと一致した。
論文 参考訳(メタデータ) (2026-04-21T05:53:33Z) - A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs [64.8510381475827]
SMOE(Sparse Mixture-of-Experts)アーキテクチャは、大規模言語モデルを効率的にスケールするためにますます使われている。
SMoEモデルは専門家間で厳しい負荷不均衡に悩まされることが多く、専門家のごく一部がほとんどのトークンを受け取り、他のモデルは未利用である。
推定中のエキスパートルーティングの体系的解析を行い, (i) 負荷不均衡が持続し, バッチサイズが大きくなる, (ii) 選択頻度が, 専門家の重要度を確実に反映しない, (iii) 専門家の全体負荷と重要性を, キャリブレーションセットを用いて推定できる,という3つの知見を同定する。
論文 参考訳(メタデータ) (2026-02-23T15:11:16Z) - SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning [83.66308307152808]
マルチモーダル・インストラクション・チューニング(MCIT)のためのStAbilized Mixture-of-Experts(SAME)を提案する。
プロプライエタリは、サブスペースへのルーティングダイナミクスを分解し、タスク関連方向のみを更新することで、専門家の選択を安定化する。
また、トレーニング中に選択した専門家を凍結するためにアダプティブな専門家アクティベーションを導入し、冗長でクロスタスクな干渉を減らす。
論文 参考訳(メタデータ) (2026-02-02T11:47:06Z) - Dropping Experts, Recombining Neurons: Retraining-Free Pruning for Sparse Mixture-of-Experts LLMs [54.95810313530111]
DERNは、専門家のプルーニングと再構築のためのタスク非依存でトレーニングなしのフレームワークである。
コモンセンス推論やMMLUベンチマークでは、50%のエキスパートスパシティでパフォーマンスを5%以上向上させる。
論文 参考訳(メタデータ) (2025-09-12T16:09:39Z) - SEUF: Is Unlearning One Expert Enough for Mixture-of-Experts LLMs? [35.237427998489785]
我々は,Mixture-of-Experts (MoE) LLMのためのSEUF(Selected-Expert Unlearning Framework)を提案する。
専門家の帰属を通じて、未学習は特定の知識に対する最も活発な専門家に集中する。
SEUFは様々な標準のアンラーニングアルゴリズムと互換性がある。
論文 参考訳(メタデータ) (2024-11-27T22:46:08Z) - Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。