論文の概要: Redesign Mixture-of-Experts Routers with Manifold Power Iteration
- arxiv url: http://arxiv.org/abs/2606.12397v1
- Date: Wed, 10 Jun 2026 17:57:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.612739
- Title: Redesign Mixture-of-Experts Routers with Manifold Power Iteration
- Title(参考訳): Manifold Power Iteration を用いた再設計混合ルータ
- Authors: Songhao Wu, Ang Lv, Ruobing Xie, Yankai Lin,
- Abstract要約: Manifold Power Iteration (MPI) を用いたルータの再設計を提案する。
MPIはルータ列を駆動し、関連する専門家の主特異方向に向かって収束させる。
MPIはルータ列を駆動し、関連する専門家の主特異方向に向かって収束することを示す。
- 参考スコア(独自算出の注目度): 60.55368504665436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Router is the cornerstone component to the Mixture-of-Experts models. Serving as expert proxies, the rows of the router matrix compute their similarity to the MoE inputs to determine which subset of experts is activated. Ideally, each router row is designed to encode the expert matrix into this representative vector, such that its dot-product with token can better reflect token-expert affinity. However, there exists no design principles to enforce this condensation. In this paper, we propose to align each router row with the principal singular direction of the associated expert, as this direction provides the most expressive mathematical description of a matrix. Based on this principle, we propose a router redesign with Manifold Power Iteration (MPI). Specifically, it introduces a "Power-then-Retract" paradigm, where a power iteration step is performed on the router weights, followed by a retraction to impose a norm constraint to ensure both efficiency and stability. Theoretically, we show that MPI drives router rows to converge toward the principal singular directions of associated experts. Empirically, we pretrain MoE model across scales from 1B to 11B parameters to confirm that this alignment facilitates more effective MoE models.
- Abstract(参考訳): ルータはMixture-of-Expertsモデルの基盤となるコンポーネントである。
専門家プロキシとして機能し、ルータ行列の行はMoE入力と類似性を計算し、どの専門家のサブセットがアクティベートされているかを決定する。
理想的には、各ルータ列は専門家行列をこの代表ベクトルにエンコードするように設計されており、トークン付きドット積はトークン-専門家親和性をよりよく反映できる。
しかし、この凝縮を強制する設計原則は存在しない。
本稿では,各ルータ列を関連する専門家の主特異方向と整合させることを提案する。
この原理に基づいて,manifold Power Iteration (MPI) を用いたルータの再設計を提案する。
具体的には、ルータの重み付けに電力繰り返しのステップを実行する"Power-then-Retract"パラダイムを導入し、その後に効率と安定性の両立を保証するために基準制約を課すリトラクションを導入する。
理論的には、MPIがルータ列を駆動し、関連する専門家の主特異方向に向かって収束することを示す。
実験的に、我々は1Bから11BパラメータのスケールでMoEモデルを事前訓練し、このアライメントがより効果的なMoEモデルを促進することを確認する。
関連論文リスト
- Routers Learn the Geometry of Their Experts: Geometric Coupling in Sparse Mixture-of-Experts [23.123497435269112]
SMoEの経路決定が機械的にどのように形成されるかを検討する。
スクラッチからトレーニングされた1億ドルのSMoEでは、より高いルータスコアが専門家のニューロンの活性化を予測する。
この結果から、ルータが効率的な分業を支援する代入幾何学をいかに形成するかが説明できる。
論文 参考訳(メタデータ) (2026-05-12T17:55:02Z) - Adaptive Inverted-Index Routing for Granular Mixtures-of-Experts [49.09151538536423]
Mixture-of-experts (MoE)モデルはトークンごとに専門家のサブセットだけを活性化することでスケーラブルなトランスフォーマーアーキテクチャを実現する。
最近の証拠は、より粒度の細かい専門家、すなわち、少数の大きな専門家ではなく、多くの小さな専門家によって、パフォーマンスが向上することを示している。
ベクトル量子化(VQ)に基づく逆インデックス型ルーティングアーキテクチャである MoE (AIR-MoE) の適応型逆インデックスルーティングを導入する。
論文 参考訳(メタデータ) (2026-05-06T14:15:10Z) - Self-Routing: Parameter-Free Expert Routing from Hidden States [14.018297453424454]
Mixture-of-Experts (MoE)レイヤは、トークンごとに専門家の小さなサブセットをアクティベートすることで、モデルのキャパシティを向上する。
本稿では,トークン隠蔽状態の指定された部分空間を専門家のロジットとして直接使用するパラメータフリーなルーティング機構であるSelf-Routingを提案する。
論文 参考訳(メタデータ) (2026-04-01T03:05:20Z) - Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts [74.40169987564724]
エキスパート並列性(EP)は、複数のデバイスに専門家を分散させることで、MoEモデルをスケールするように設計されている。
極端な不均衡の下で、EPは少数の専門家に不均等な数のトークンを渡し、計算とメモリバウンドの障害を引き起こす。
本稿では,過剰なトークンと関連する専門家パラメータを過負荷デバイスから未利用デバイスへ動的に再帰する新しいEPアルゴリズムであるLast-Loaded Expert Parallelism (LLEP)を提案する。
論文 参考訳(メタデータ) (2026-01-23T18:19:15Z) - Routing by Analogy: kNN-Augmented Expert Assignment for Mixture-of-Experts [32.65737144630759]
Mixture-of-Experts (MoE)アーキテクチャは、パラメトリックな"router"を使用して、トークンを専門家のまばらなサブセットにディスパッチすることで、大きな言語モデルを効率的にスケールする。
我々は、類似したケースのメモリから最適な専門家の割り当てを再利用する検索強化ルーティングフレームワークであるkNN-MoEを紹介する。
実験の結果、kNN-MoEはゼロショットベースラインよりも優れており、計算コストのかかる微調整に匹敵することがわかった。
論文 参考訳(メタデータ) (2026-01-05T14:16:11Z) - Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance [79.21541758879012]
Mixture-of-Experts (MoE) は計算効率を保ちながらモデルキャパシティをスケールするための強力なパラダイムとして登場した。
本稿では、専門家の専門化を促進する明示的なルーティングガイダンスを備えた2ステップルータを備えたMoEフレームワークであるProMoEを紹介する。
論文 参考訳(メタデータ) (2025-10-28T17:59:02Z) - Understanding the Mixture-of-Experts with Nadaraya-Watson Kernel [87.60286115014833]
Mixture-of-Experts (MoE)は最近の最先端の大規模言語モデル(LLM)の基盤となっている。
伝統的に、MoEはエキスパート出力を集約するためにルータスコア関数として$mathrmSoftmax$に依存している。
mathrmSoftmax$の代替として,textbfzero-additional-cost Kernel Router with Normalization (KERN)を提案する。
論文 参考訳(メタデータ) (2025-09-30T08:04:02Z) - Optimizing MoE Routers: Design, Implementation, and Evaluation in Transformer Models [0.0]
Mixture of Experts (MoE)アーキテクチャは言語モデルのスケーラビリティを向上するが、そのパフォーマンスはトークンを専門の専門家に移すルータモジュールに依存している。
この研究は、MoEルータの設計の比較分析を提供し、その性能を効率的かつ効率的な大規模モデル展開のために最適化するための洞察を提供する。
論文 参考訳(メタデータ) (2025-06-19T15:55:43Z) - Routers in Vision Mixture of Experts: An Empirical Study [26.51711534240885]
Mixture-of-Experts (MoE)モデルは、計算コストを大幅に増加させることなく、モデル容量をスケールアップする有望な方法である。
MoEsの主要なコンポーネントはルータであり、どのパラメータ(専門家)プロセスのサブセットが埋め込み(トークン)を特徴付けるかを決定する。
論文 参考訳(メタデータ) (2024-01-29T08:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。