Fugu-MT 論文翻訳(概要): SPRI: SVD-Partitioned Residual Initialization for Data-Constrained MoE Upcycling

論文の概要: SPRI: SVD-Partitioned Residual Initialization for Data-Constrained MoE Upcycling

arxiv url: http://arxiv.org/abs/2606.16456v1
Date: Mon, 15 Jun 2026 09:28:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-16 16:21:34.272214
Title: SPRI: SVD-Partitioned Residual Initialization for Data-Constrained MoE Upcycling
Title（参考訳）: SPRI: SVD-Partitioned Residual Initialization for Data-Constrained MoE Upcycling
Authors: Weiqiao Shan, Ruixiang Mao, Yuang Li, Yuhao Zhang, Yingfeng Luo, Tong Zheng, Chen Xu, Yucheng Qiao, Chunxiang Jin, Yi Yuan, Jingdong Chen, Tong Xiao, Jingbo Zhu,
Abstract要約: Mixture-of-Experts (MoE)モデルは効率的なスケーリングを可能にするが、それらをスクラッチからトレーニングすることは違法に高価である。 MoEは、トレーニング済みの高密度モデルをスパースMOEモデルに変換することで、このコストを軽減します。本稿では,SVD-Partitioned Residual Initialization (SPRI)を提案する。
参考スコア（独自算出の注目度）: 58.910165627759824
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mixture-of-Experts (MoE) models enable efficient scaling, but training them from scratch remains prohibitively expensive. MoE upcycling mitigates this cost by converting pretrained dense models into sparse MoE models. However, existing upcycling methods typically rely on large-scale continued training and often perform poorly under data-constrained supervised adaptation, due to either homogeneous experts or overly disruptive perturbations to pretrained parameters. In this setting, effective upcycling must leverage pretrained weight structure while introducing sufficient diversity among routed experts. To this end, we propose SVD-Partitioned Residual Initialization (SPRI), which distributes SVD-partitioned residuals derived from pretrained feed-forward network (FFN) weights across routed experts, introducing controlled expert diversity grounded in pretrained spectral structure. We further introduce a two-stage training strategy to improve adaptation stability. We evaluate SPRI on multilingual speech-to-text translation, where limited supervised data challenges MoE upcycling and multiple target languages provide natural routing heterogeneity. On CoVoST2 across 15 En-to-XX directions, SPRI improves average BLEU and COMET over fully fine-tuned dense models by 2.58 and 3.32 points, respectively, and outperforms the prior best MoE upcycling baseline by 3.39 BLEU and 4.34 COMET points.
Abstract（参考訳）: Mixture-of-Experts (MoE)モデルは効率的なスケーリングを可能にするが、それらをスクラッチからトレーニングすることは違法に高価である。 MoEは、トレーニング済みの高密度モデルをスパースMOEモデルに変換することで、このコストを軽減します。しかし、既存のアップサイクリング手法は、通常、大規模な継続的なトレーニングに頼り、データ制約された教師付き適応の下では、均質な専門家や、事前訓練されたパラメータに対する過度に破壊的な摂動のために、パフォーマンスが良くない。この設定では、効果的なアップサイクリングは、訓練済みの重量構造を利用しながら、ルーティングされた専門家の間で十分な多様性を導入する必要がある。そこで本研究では,SVD-Partitioned Residual Initialization (SPRI)を提案する。これは,予め訓練されたフィードフォワードネットワーク (FFN) の重みから得られたSVD-Partitioned Residual Initialization (SVD-Partitioned Residual Initialization) をルーティングされた専門家に分散し,事前訓練されたスペクトル構造に基づく制御された専門家の多様性を導入する。さらに,適応安定性を向上させるための2段階のトレーニング戦略を導入する。多言語音声テキスト翻訳におけるSPRIの評価を行い、教師付きデータに制限がある場合、MoEアップサイクリングと複数のターゲット言語が自然なルーティングの不均一性を提供する。 15En-to-XX方向のCoVoST2では、SPRIは完全な微調整された高密度モデルよりも平均BLEUとCOMETを2.58点と3.32点に改善し、事前のMoEアップサイクルベースラインを3.39BLEUと4.34COMETポイントで上回っている。

論文の概要: SPRI: SVD-Partitioned Residual Initialization for Data-Constrained MoE Upcycling

関連論文リスト