論文の概要: How Modular Is a Frontier Mixture-of-Experts? A Pre-registered Causal Test in Which Apparent Expert Modularity Mostly Dissolves
- arxiv url: http://arxiv.org/abs/2606.25092v1
- Date: Tue, 23 Jun 2026 18:55:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.121015
- Title: How Modular Is a Frontier Mixture-of-Experts? A Pre-registered Causal Test in Which Apparent Expert Modularity Mostly Dissolves
- Title(参考訳): エクイティのフロンティアミクチャーはいかにモジュラーか? 未登録のカジュアルテストで明らかなモジュラリティが解消される
- Authors: Tony Salomone, Deep Gandhi, Ali Asaria,
- Abstract要約: 我々は、ルーティングマスアトラスを構築し、6つのファミリー対軸仮説を事前登録し、サイズマッチングされたランダムエキスパートヌルに対して各ファミリーを推論時にアブレーションする。
4つのメトリクスで同じファミリーをテストし、信頼度の高いブートストラップ間隔で独立した独立したコーパスを実行します。
登録済みの6家族のうち、アラビア語族のうち1家族だけが独立したコーパスと保守的な統計的バーを生き残る清潔な選択的なモジュールである。
- 参考スコア(独自算出の注目度): 0.08599681538174887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Mixture-of-Experts (MoE) models route each token to a few of many experts, inviting the hypothesis that experts form functional modules tied to capabilities or languages. We test this causally on Command A+, a frontier open-weights MoE (218B total / 25B active; 128 experts, 8 active, +1 shared). We build a routing-mass atlas, pre-register six family-to-axis hypotheses before any intervention, and ablate each family at inference time against a size-matched random-expert null, measuring whether it selectively breaks its own axis (worst off-target effect at most one third of on-target). Crucially, we test the same families under four metrics and a held-out, independent-corpus run with bootstrap confidence intervals. Our finding is cautionary: robust functional modularity is rare and measurement-dependent. Of six pre-registered families, only one, the Arabic-language family, is a clean selective module that survives an independent corpus and a conservative statistical bar (1/6; a more permissive pre-registered point rule admits 3/6, but that count is threshold-sensitive). Every other family has a real causal effect yet fails selectivity, and its apparent modularity flips with the measurement: with the corpus, the metric, and the statistical bar. A positive control on Qwen3-30B-A3B recovers its published disjoint structure, confirming the method detects modularity when present. The verdict reproduces on the un-quantized BF16 model, ruling out a 4-bit quantization artifact. We conclude that ablation-based modularity verdicts are not safe unless the corpus, metric, and statistical bar are controlled. We release the atlas and ablation data.
- Abstract(参考訳): Sparse Mixture-of-Experts (MoE)モデルは、各トークンを少数の専門家にルートし、専門家が機能や言語に結びついた機能モジュールを形成するという仮説を提唱する。
私たちは、このことを、フロンティアオープンウェイトMoE(合計25B、専門家128人、アクティブ8人、共有+1人)のCommand A+で慎重にテストします。
我々は、経路質量アトラスを構築し、介入前に6つの家族対軸仮説を事前登録し、サイズにマッチしたランダム・エキスパート・ヌルに対して各家族を推論時にアブレーションし、それが自身の軸を選択的に破壊するかどうかを測定する(ターゲットの3分の1以上において標的外効果を抑える)。
重要なことは、私たちは4つの基準の下で同じ家族をテストし、ブートストラップの信頼区間を保留した独立したコーパスを実行します。
堅牢な機能的モジュール化はまれであり、測定に依存します。
6つの事前登録されたファミリーのうち、1つはアラビア語族であり、独立したコーパスと保守的な統計的バー(1/6、より寛容な事前登録されたポイントルールは3/6を認めるが、その数は閾値に敏感である)を生き残るクリーンな選択的なモジュールである。
他のすべての族は真の因果効果を持つが、選択性に失敗し、その明らかなモジュラリティは、コーパス、計量、統計バーとともに測定によって反転する。
Qwen3-30B-A3Bの正の制御は、公表された解離構造を復元し、その方法が現在あるときのモジュラリティを検出することを確認する。
評定は、4ビットの量子化アーティファクトを除外して、非量子化BF16モデルで再現する。
我々は、コーパス、メートル法、統計バーが制御されない限り、アブレーションに基づくモジュラリティの検証は安全ではないと結論づける。
アトラスおよびアブレーションデータをリリースする。
関連論文リスト
- When Is Emergent Consensus Real? A Measured Coupling Gain and a Validity Diagnostic for LLM Agent Societies [1.2763567932588586]
LLM「エージェント・ソサエティ」は、創発的なコンセンサスや偏光の実証を通じて研究される。
結果が真の社会的ダイナミクスなのか、あるいはモデルアーティファクトなのかは、テストされていない。
隣人の意見に逆らうことによって, 年齢ごとのカップリングゲイン+, 測定値について紹介する。
論文 参考訳(メタデータ) (2026-06-20T19:41:01Z) - Traits Run Deeper: Trait-Specific Asymmetric Fusion for Personality Assessment [53.50824432699408]
Traits Run Deeperは、新しいパーソナリティアセスメントフレームワークである。
MFR(Multimodal Foundation Representation)、TSMF(Trit-Specific Modality Fusion)、DCPR(Distributed-Calibrated Personality Regression)の3つのコンポーネントで構成されている。
論文 参考訳(メタデータ) (2026-06-09T06:38:36Z) - Three Regimes of Context-Parametric Conflict: A Predictive Framework and Empirical Validation [0.0]
大規模言語モデルが学習知識と矛盾する文書の相違にどのように対処するかを考察する。
本稿では,Regime 1 (単一ソース更新),Regime 2 (競合統合),Regime 3 (タスクに適した選択)という3つの登録フレームワークを提案する。
我々はClaude Sonnet 4.6、GPT-5.5、Gemini 2.5 Flash、Llama 4 Maverick、DeepSeek V3の3つの実験段階で9,970のAPIコールを使用してフレームワークを検証する。
論文 参考訳(メタデータ) (2026-05-12T06:00:48Z) - The Surprising Universality of LLM Outputs: A Real-Time Verification Primitive [0.0]
CPUのみのスコアリングプリミティブはトークン当たり2.6マイクロ秒で動作する。
トークンのランク周波数分布は同じ2パラメータのMandelbrotランキング分布に収束する。
利用可能な場合にモデルログの確率で構成し、クローズドAPIで使用可能なランクオンリーモードに分解するシングルパススコアリングプリミティブを導出する。
論文 参考訳(メタデータ) (2026-04-28T13:35:31Z) - Statistics, Not Scale: Modular Medical Dialogue with Bayesian Belief Engine [51.722324399751294]
大規模言語モデルは、自律的な診断エージェントとしてますますデプロイされているが、基本的に異なる2つの機能を説明する。
本稿では,言語と推論を厳格に分離するモジュール型診断対話フレームワークBMBEを紹介する。
論文 参考訳(メタデータ) (2026-04-21T21:59:57Z) - Dependence-Aware Label Aggregation for LLM-as-a-Judge via Ising Models [55.94503936470247]
大規模なAI評価は、審査員を含む、$K$アノテータからのバイナリ判断を集約することにますます依存している。
ほとんどの古典的なメソッドは、アノテータが条件的に独立であると仮定するが、真のラベルは$Yin0,1$であり、この仮定は LLM の審査員によってしばしば違反される。
我々はIsingグラフィカルモデルと潜在因子に基づく依存認識モデルの階層構造を通してラベルアグリゲーションを研究する。
論文 参考訳(メタデータ) (2026-01-29T21:26:50Z) - Is BatchEnsemble a Single Model? On Calibration and Diversity of Efficient Ensembles [2.957223821964636]
BatchEnsembleは、アンサンブルのような不確実性(EU)EUを、はるかに低いパラメータとメモリコストで提供することを目指している。
我々は,BatchEnsembleがDeep Ensemblesを過小評価するだけでなく,単一のモデルベースラインを密接に追跡していることを示す。
論文 参考訳(メタデータ) (2026-01-23T17:50:50Z) - Intention Collapse: Intention-Level Metrics for Reasoning in Language Models [0.0]
この過程を、高次元の意図空間 I から外部言語空間 L への多対一の射影と呼ぶ。
我々は,3つのモデル非依存意図尺度(意図エントロピー,有効次元ディメフ,潜在知識回復可能性)を定義する。
200 GSM8K問題に対する4ビットMistral 7Bモデルを用いて,直解ベースライン,思考連鎖(CoT)レシエーション,バブル制御を比較した。
論文 参考訳(メタデータ) (2026-01-03T00:19:53Z) - Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。
第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。
第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文 参考訳(メタデータ) (2025-02-11T19:24:09Z) - Confidence-Based Model Selection: When to Take Shortcuts for
Subpopulation Shifts [119.22672589020394]
モデル信頼度がモデル選択を効果的に導くことができるConfidence-based Model Selection (CosMoS)を提案する。
我々はCosMoSを,データ分散シフトのレベルが異なる複数のテストセットを持つ4つのデータセットで評価した。
論文 参考訳(メタデータ) (2023-06-19T18:48:15Z) - Distributed, partially collapsed MCMC for Bayesian Nonparametrics [68.5279360794418]
ディリクレ法やベータ・ベルヌーリ法のようなモデルでよく用いられる完全無作為測度は独立な部分測度に分解可能であるという事実を利用する。
この分解を用いて、潜在測度を、インスタンス化された成分のみを含む有限測度と、他のすべての成分を含む無限測度に分割する。
得られたハイブリッドアルゴリズムは、収束保証を犠牲にすることなくスケーラブルな推論を可能にすることができる。
論文 参考訳(メタデータ) (2020-01-15T23:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。