論文の概要: Sparsely gated tiny linear experts
- arxiv url: http://arxiv.org/abs/2606.07414v1
- Date: Fri, 05 Jun 2026 16:06:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.839029
- Title: Sparsely gated tiny linear experts
- Title(参考訳): 小口径リニアエキスパート
- Authors: Simon Schug,
- Abstract要約: スパーシティは、計算コストを比例的に増加させることなく、モデルのパラメータをスケーリングすることを可能にする。
それぞれの専門家を1つのニューロンに縮小することで、より疎結合性を高め、計算効率と解釈可能性を向上させることができることを示す。
どちらも達成するための鍵は、専門家に通常適用される非線形性を除去することであり、その結果、疎ゲートの線形ニューロンのネットワークが形成される。
- 参考スコア(独自算出の注目度): 4.080473990569987
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sparsity allows scaling model parameters without proportionally increasing computational cost. While mixture of experts (MoE) models are made increasingly sparse, individual experts typically remain large and dense. Here, we demonstrate that further increasing sparsity by shrinking each expert to consist of a single neuron and selecting a tiny fraction of many available neurons can improve compute efficiency and interpretability. Counterintuitively, the key to achieving both is removing the nonlinearity typically applied to the experts, resulting in a network of sparsely gated linear neurons (sgatlin). In an isoflop comparison, we find that replacing all transformer feedforward layers with sgatlin improves perplexity in language models across different compute budgets. At the same time, the sparsity and linearity of the resulting feedforward circuits present new opportunities for model interpretability. In a small-scale case study, we demonstrate that feedforward circuits in sgatlin can be interpreted without having to train additional replacement models. We find that they form semantically structured clusters and are causally implicated in factual recall. Our findings paint a possible path towards compute-efficient and interpretable transformer feedforward layers.
- Abstract(参考訳): スパーシティは、計算コストを比例的に増加させることなく、モデルのパラメータをスケーリングすることを可能にする。
専門家の混合モデル(MoE)はますます疎遠になっているが、個々の専門家は通常、大きくて密度が高いままである。
ここでは、各専門家を1つのニューロンに縮小し、利用可能なニューロンのごく一部を選択することで、計算効率と解釈可能性を向上させることによる、さらなる疎外性の向上を実証する。
反対に、両方を達成するための鍵は、専門家に通常適用される非線形性を取り除くことであり、結果として、疎ゲートされた線形ニューロン(sgatlin)のネットワークが形成される。
アイソフロップ比較では、全てのトランスフォーマーフィードフォワード層をスガトリンに置き換えることで、異なる計算予算にわたる言語モデルの難易度が向上することがわかった。
同時に、結果として生じるフィードフォワード回路の幅と線形性は、モデル解釈可能性の新しい機会を提供する。
小型ケーススタディにおいて、スガトリンのフィードフォワード回路は、追加の代替モデルを訓練することなく解釈できることを実証した。
意味的に構造化されたクラスタを形成し、事実的リコールに因果的に関係していることがわかった。
以上の結果から, 計算効率が高く, 解釈可能なトランスフォーワード層への経路が示唆された。
関連論文リスト
- Weight-sparse transformers have interpretable circuits [4.237686583992518]
重みのほとんどをゼロに制約することで、より理解可能な回路を持つようにモデルを訓練する。
いくつかの手作り作業の根底にあるきめ細かい回路を復元する。
我々の研究は、前例のないレベルの人間の理解力を達成する回路を生み出している。
論文 参考訳(メタデータ) (2025-11-17T18:02:06Z) - NIMO: a Nonlinear Interpretable MOdel [5.128077543874915]
NIMOは、固有の解釈可能性とニューラルネットワークの表現力を組み合わせたフレームワークである。
我々のモデルは優れた予測性能を維持しつつ、忠実で知性に富む特徴効果を提供できることを示す。
論文 参考訳(メタデータ) (2025-06-05T14:02:55Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
リッジ回帰に関する最近の結果について統一的な視点を提示する。
我々は、物理とディープラーニングの背景を持つ読者を対象に、ランダム行列理論と自由確率の基本的なツールを使用する。
我々の結果は拡張され、初期のスケーリング法則のモデルについて統一的な視点を提供する。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - The Contextual Lasso: Sparse Linear Models via Deep Neural Networks [5.607237982617641]
本研究では,空間的特徴の関数として空間的パターンと係数が変化するような説明的特徴に疎線形モデルに適合する新しい統計的推定器を開発する。
実データと合成データに関する広範な実験は、学習されたモデルは、非常に透明であり、通常のラッソよりもスペーサーであることを示している。
論文 参考訳(メタデータ) (2023-02-02T05:00:29Z) - Learning an Invertible Output Mapping Can Mitigate Simplicity Bias in
Neural Networks [66.76034024335833]
バックボーンによって多様・複雑な特徴が学習される理由を考察し、その脆さは、主に最も単純な特徴に依存する線形分類ヘッドによるものである。
本稿では,学習した特徴がログから復元可能であることを保証するために,特徴再構成正則化器(FRR)を提案する。
我々は、最近導入された極端分布シフトを持つ半合成データセットにおいて、OOD精度が最大15%向上することを示した。
論文 参考訳(メタデータ) (2022-10-04T04:01:15Z) - Learning Invariances in Neural Networks [51.20867785006147]
ネットワークパラメータや拡張パラメータに関して,拡張性よりも分布をパラメータ化し,トレーニング損失を同時に最適化する方法を示す。
画像分類,回帰,セグメンテーション,分子特性予測における不均一性の正確なセットと範囲を,拡張の広い空間から復元することができる。
論文 参考訳(メタデータ) (2020-10-22T17:18:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。