論文の概要: A theoretical model for task routing in mixture-of-expert transformers
- arxiv url: http://arxiv.org/abs/2606.14398v2
- Date: Mon, 15 Jun 2026 02:01:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 13:45:31.305619
- Title: A theoretical model for task routing in mixture-of-expert transformers
- Title(参考訳): 混合熟練変圧器におけるタスクルーティングに関する理論的モデル
- Authors: Vinoth Nandakumar, Yongli Xiang, Yunzhi Yao, Peike Li, Tongliang Liu,
- Abstract要約: 我々は,一層型MOE変換器が,対応するタスクを専門とする専門家を用いて知識を符号化できることを正式に証明する。
提案手法は,MoEモデルにおける局所化知識回路における実験結果に対する理論的支援を提供する。
- 参考スコア(独自算出の注目度): 61.91842664811864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-experts (MoE) layers enable the scaling of transformer models while keeping the inference compute fixed. While task-expert specialization has been observed in empirical studies of frontier MoE transformer models, existing theoretical work analyzes this using continuous mixture models that cannot be used to model natural language effectively. An important open question is to \textit{theoretically explain task-expert specialization in transformer MoE models using discrete models of language}. To address this, we represent structured knowledge via syntactic templates and finite key-value dictionaries, and prove formally that a single-layer MoE transformer can encode knowledge by using experts that specialize in the corresponding tasks. Our construction shows how queries are routed to unique, task-specific experts whose size depends solely on the intrinsic complexity of the given task (i.e. the combined size of its syntactic templates and factual dictionary). Our construction provides a theoretical support for empirical results on localized knowledge circuits in MoE models. We support our theoretical findings with experiments evaluating model performance under varying MoE loss functions.
- Abstract(参考訳): Mixture-of-experts (MoE) レイヤは、推論計算を固定しつつ、トランスフォーマーモデルのスケーリングを可能にする。
タスク・エキスパート・スペシャライゼーションはフロンティアMOEトランスフォーマーモデルの実証的研究で観測されているが、既存の理論的研究は、自然言語を効果的にモデル化できない連続混合モデルを用いてこれを解析している。
重要なオープンな疑問は、言語モデルの離散モデルを用いて変換器 MoE モデルにおけるタスク-専門家の特殊化を説明することである。
これを解決するために,構文テンプレートと有限鍵値辞書を用いて構造化知識を表現し,対応するタスクを専門とする専門家を用いて,単一層MOE変換器が知識をエンコードできることを正式に証明する。
我々の構成は、クエリが与えられたタスクの内在的な複雑さ(構文テンプレートと実例辞書の組合せサイズ)にのみ依存する、ユニークなタスク固有の専門家にルーティングされる方法を示している。
提案手法は,MoEモデルにおける局所化知識回路における実験結果に対する理論的支援を提供する。
我々は,様々なMoE損失関数の下でのモデル性能を評価する実験により,理論的な結果を支持する。
関連論文リスト
- MoLAE: Mixture of Latent Experts for Parameter-Efficient Language Models [10.623996218106564]
Mixture of Experts (MoE)は、Large Language Models (LLM)を効率的にスケーリングするための重要なアーキテクチャパラダイムとなっている。
我々は、共有射影を通して専門家の操作を低次元の潜在空間に変換する新しいパラメータ化であるMoLAEを導入し、それに続いて専門家固有の変換を行う。
モデル性能を保ちながら,MoLAEは複数の次元にわたる効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-03-29T14:35:34Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - The Extrapolation Power of Implicit Models [2.3526338188342653]
暗黙のモデルは、アウト・オブ・ディストリビューション、地理的、時間的シフトといった様々な外挿シナリオでテストに投入される。
我々の実験は暗黙のモデルで常に大きな性能上の優位性を証明している。
論文 参考訳(メタデータ) (2024-07-19T16:01:37Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Estimating Knowledge in Large Language Models Without Generating a Single Token [12.913172023910203]
大規模言語モデル(LLM)における知識を評価するための現在の手法は、モデルをクエリし、生成した応答を評価する。
本研究では,モデルがテキストを生成する前に評価を行うことができるかどうかを問う。
様々なLLMを用いた実験では、内部の主題表現を訓練した単純なプローブであるKEENが、両方のタスクで成功することが示された。
論文 参考訳(メタデータ) (2024-06-18T14:45:50Z) - On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - Transformers are uninterpretable with myopic methods: a case study with
bounded Dyck grammars [36.780346257061495]
解釈可能性法は、訓練されたモデルによって実装されたアルゴリズムを理解することを目的としている。
私たちは、モデルの個々の部分にのみフォーカスするメソッドの批判的な見解を取ります。
論文 参考訳(メタデータ) (2023-12-03T15:34:46Z) - Interpretable Mixture of Experts [71.55701784196253]
Interpretable Mixture of Experts (IME)は本質的に解釈可能なモデリングフレームワークである。
IMEは単一の解釈可能なモデルよりも正確であることが示され、既存の最先端のDeep Neural Networks(DNN)と正確に比較できる。
IMEの説明は、ユーザスタディを通じて一般的に使われているポストホックな説明法と比較される。
論文 参考訳(メタデータ) (2022-06-05T06:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。