論文の概要: SPRI: SVD-Partitioned Residual Initialization for Data-Constrained MoE Upcycling
- arxiv url: http://arxiv.org/abs/2606.16456v1
- Date: Mon, 15 Jun 2026 09:28:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.272214
- Title: SPRI: SVD-Partitioned Residual Initialization for Data-Constrained MoE Upcycling
- Title(参考訳): SPRI: SVD-Partitioned Residual Initialization for Data-Constrained MoE Upcycling
- Authors: Weiqiao Shan, Ruixiang Mao, Yuang Li, Yuhao Zhang, Yingfeng Luo, Tong Zheng, Chen Xu, Yucheng Qiao, Chunxiang Jin, Yi Yuan, Jingdong Chen, Tong Xiao, Jingbo Zhu,
- Abstract要約: Mixture-of-Experts (MoE)モデルは効率的なスケーリングを可能にするが、それらをスクラッチからトレーニングすることは違法に高価である。
MoEは、トレーニング済みの高密度モデルをスパースMOEモデルに変換することで、このコストを軽減します。
本稿では,SVD-Partitioned Residual Initialization (SPRI)を提案する。
- 参考スコア(独自算出の注目度): 58.910165627759824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) models enable efficient scaling, but training them from scratch remains prohibitively expensive. MoE upcycling mitigates this cost by converting pretrained dense models into sparse MoE models. However, existing upcycling methods typically rely on large-scale continued training and often perform poorly under data-constrained supervised adaptation, due to either homogeneous experts or overly disruptive perturbations to pretrained parameters. In this setting, effective upcycling must leverage pretrained weight structure while introducing sufficient diversity among routed experts. To this end, we propose SVD-Partitioned Residual Initialization (SPRI), which distributes SVD-partitioned residuals derived from pretrained feed-forward network (FFN) weights across routed experts, introducing controlled expert diversity grounded in pretrained spectral structure. We further introduce a two-stage training strategy to improve adaptation stability. We evaluate SPRI on multilingual speech-to-text translation, where limited supervised data challenges MoE upcycling and multiple target languages provide natural routing heterogeneity. On CoVoST2 across 15 En-to-XX directions, SPRI improves average BLEU and COMET over fully fine-tuned dense models by 2.58 and 3.32 points, respectively, and outperforms the prior best MoE upcycling baseline by 3.39 BLEU and 4.34 COMET points.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは効率的なスケーリングを可能にするが、それらをスクラッチからトレーニングすることは違法に高価である。
MoEは、トレーニング済みの高密度モデルをスパースMOEモデルに変換することで、このコストを軽減します。
しかし、既存のアップサイクリング手法は、通常、大規模な継続的なトレーニングに頼り、データ制約された教師付き適応の下では、均質な専門家や、事前訓練されたパラメータに対する過度に破壊的な摂動のために、パフォーマンスが良くない。
この設定では、効果的なアップサイクリングは、訓練済みの重量構造を利用しながら、ルーティングされた専門家の間で十分な多様性を導入する必要がある。
そこで本研究では,SVD-Partitioned Residual Initialization (SPRI)を提案する。これは,予め訓練されたフィードフォワードネットワーク (FFN) の重みから得られたSVD-Partitioned Residual Initialization (SVD-Partitioned Residual Initialization) をルーティングされた専門家に分散し,事前訓練されたスペクトル構造に基づく制御された専門家の多様性を導入する。
さらに,適応安定性を向上させるための2段階のトレーニング戦略を導入する。
多言語音声テキスト翻訳におけるSPRIの評価を行い、教師付きデータに制限がある場合、MoEアップサイクリングと複数のターゲット言語が自然なルーティングの不均一性を提供する。
15En-to-XX方向のCoVoST2では、SPRIは完全な微調整された高密度モデルよりも平均BLEUとCOMETを2.58点と3.32点に改善し、事前のMoEアップサイクルベースラインを3.39BLEUと4.34COMETポイントで上回っている。
関連論文リスト
- Post-Trained MoE Can Skip Half Experts via Self-Distillation [35.17955778301488]
Mixture-of-Experts (MoE)は、スパース専門家のアクティベーションを通じて、言語モデルを効率的にスケールする。
MoEの動的変種は、アクティベートされた専門家を入力依存の方法で調整することで、計算をさらに削減する。
本稿では,Zero-Expert Self-Distillation Adaptation (ZEDA)について紹介する。
論文 参考訳(メタデータ) (2026-05-18T16:50:48Z) - Mixture of Experts for Low-Resource LLMs [0.0]
Mixture-of-Experts (MoE)アーキテクチャは効率的なモデルスケーリングを実現するが、未表現言語をまたいだ専門家のルーティング動作はあまり理解されていない。
アーキテクチャ的に異なる2つのMoEモデル(Qwen3-30B-A3B)とハイブリッドのMamba-Transformer(Nemotron-3-Nano-30B-A3B)のルーティングダイナミクスを、形態的にリッチで低リソースなテストベッドとしてHebrewを用いて解析する。
論文 参考訳(メタデータ) (2026-05-17T18:50:50Z) - Self-Distilled Trajectory-Aware Boltzmann Modeling: Bridging the Training-Inference Discrepancy in Diffusion Language Models [65.89572755202245]
拡散言語モデル(DLM)は、より強力なグローバル認識と高い並列生成を提供する。
標準負のエビデンス下界(NELBO)に基づく教師付き微調整後のDLMは非効率である。
そこで本研究では,学習を推論の容易かつハードな構造に整合させる,自己蒸留軌道に基づくポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-12T09:39:06Z) - Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts [27.40662720929157]
Mixture-of-Experts (MoE) は大規模言語モデルをスケールするための主要なアーキテクチャとなっている。
本稿では,専門家数を増やすことで,MoE容量を段階的に拡大する専門家アップサイクリングを提案する。
筆者らの7B-13B総合パラメータ実験では,GPU時間の32%を節約しながら,検証損失の固定サイズベースラインと一致した。
論文 参考訳(メタデータ) (2026-04-21T05:53:33Z) - Dual Decomposition of Weights and Singular Value Low Rank Adaptation [9.048461365342204]
重み行列を大きさと方向成分に分解する新しいアプローチであるDuDeを提案する。
評価の結果,MMLUでは48.35%,GSM8Kでは62.53%(pm$1.59)の精度が得られた。
論文 参考訳(メタデータ) (2025-05-20T13:49:15Z) - Overtrained Language Models Are Harder to Fine-Tune [64.44743256512237]
大規模言語モデルは、成長を続けるトークン予算に基づいて事前訓練されている。
事前トレーニングの拡張により、モデルを微調整しにくくなり、最終的なパフォーマンスが低下することを示した。
論文 参考訳(メタデータ) (2025-03-24T23:11:56Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。