論文の概要: Beyond Neural Collapse: Task-Intrinsic Geometry Governs Neural Representations in Modular Arithmetic
- arxiv url: http://arxiv.org/abs/2606.08985v1
- Date: Mon, 08 Jun 2026 03:30:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.682209
- Title: Beyond Neural Collapse: Task-Intrinsic Geometry Governs Neural Representations in Modular Arithmetic
- Title(参考訳): ニューラル崩壊を超えて: モジュラー算術におけるタスク固有の幾何学の神経表現
- Authors: Hu Tan, Kuo Gai, Shihua Zhang,
- Abstract要約: 単純 ETF はクロスエントロピーにおいてわずか$O(1)$の利点しか得られないのに対し、巡回ランク 2 の解はシャッテンあるいはウェイトデカイサロゲートの下で$(K)$の利点を享受する。
この結果から,モジュラー算術のグラクキングは最大分離のみではなく,分離,対称性,複雑性の間のタスク構造的トレードオフによって制御されることがわかった。
- 参考スコア(独自算出の注目度): 18.72807692009739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While neural collapse (NC) predicts that a $K$-class-balanced classifier should organize terminal representations as a $(K-1)$-dimensional simplex equiangular tight frame (ETF), modular addition consistently enters a different regime: networks compress to a two-dimensional cyclic geometry in which both classifier weights and token embeddings lie on circles. We refine the explanation of this phenomenon in three directions. First, we formalize a layerwise non-uniform training mechanism: downstream classifier weights are driven by dense cross-entropy gradients into a rank-2 equiangular configuration before upstream embeddings fully reorganize, and once this classifier plane forms, backpropagated feature gradients constrain embedding motion to the same plane while weight decay suppresses orthogonal components. Second, after this subspace locking, the induced in-plane dynamics admit an entropy-regularized transport interpretation on $S^1$; combined with modular-addition labels, this reduces embedding formation to phase alignment, whose minimizers are single-frequency characters of $\mathbb{Z}/P\mathbb{Z}$ and hence equal-angle points on a circle. Third, we quantify why this solution prevails over NC: a simplex ETF gains only an $O(1)$ advantage in cross-entropy, whereas the cyclic rank-2 solution enjoys a $Θ(K)$ advantage under Schatten or weight-decay surrogates, yielding a critical threshold $λ_{\mathrm{crit}} = Θ(1/K)$. Our results explain both why classifier weights move first and why embeddings subsequently align with them, showing that grokking on modular arithmetic is governed not by maximal separation alone but by a task-structured trade-off between separation, symmetry, and complexity.
- Abstract(参考訳): 神経崩壊(NC)は、$K$クラスバランスの分類器が終端表現を$(K-1)$-dimensional simplex equiangular tight frame (ETF)として整理するべきであると予測する一方で、モジュラー加算は一貫して異なる状態に入る:ネットワークは、分類器の重みとトークン埋め込みの両方が円上に置かれる2次元の循環幾何学に圧縮する。
我々はこの現象の説明を3方向に洗練する。
まず,階層的に非一様学習機構を定式化する:下流の分類器の重みは,上流の埋め込みが完全に再編成される前に,高密度なクロスエントロピー勾配によりランク2の等角な構成に駆動され,この分類器平面が形成されると,逆伝播特性勾配が同一平面への埋め込み動作を制限し,重みの減衰は直交成分を抑制する。
第二に、この部分空間ロックの後、誘導平面力学は$S^1$のエントロピー規則化された輸送解釈を許容し、モジュラー加法ラベルと組み合わせることで、最小値が$\mathbb{Z}/P\mathbb{Z}$の単一周波数文字である位相アライメントへの埋め込み形成を減少させ、したがって円上の等角点を減少させる。
第3に、この解がNC上で優位である理由を定量化する: 単純 ETF はクロスエントロピーにおいてわずか$O(1)$の利得しか得られず、一方巡回ランク2 の解は、シャッテンやウェイト・デカイ・サロゲートの下で$(K)$の利得を享受し、臨界しきい値 $λ_{\mathrm{crit}} = λ(1/K)$ が得られる。
以上の結果から,なぜ分類器の重みが最初に動くのか,なぜ埋め込みがそれに沿って動くのかが説明され,モジュラー算術のグラクキングは最大分離のみではなく,分離,対称性,複雑性の間のタスク構造化トレードオフによって制御されることを示す。
関連論文リスト
- Imbuing Large Language Models with Bidirectional Logic for Robust Chain Repair [44.80087038178069]
本稿では,デコーダのみのトランスフォーマーをネイティブに組み込んだトレーニングフレームワークであるTeleological Reasoning Infilling (TRI)を紹介する。
推測では、TRIは二重システムループ内の外科的修復モジュールとして動作する。
3つのベンチマークの実験では、TRIは全てのタスクで最先端のパフォーマンスを達成し、プロブレム当たりのトークン支出を31.2%削減した。
論文 参考訳(メタデータ) (2026-06-03T15:58:48Z) - Group-Algebraic Tensors: Provably-optimal Equivariant Learning and Physical Symmetry Discovery [17.340037184664208]
任意の有限群 $G$ が代数的乗法則を定義するような、$star_G$ テンソル代数を導入する。
このフレームワークは、ニューラルネットワーク(ENN)を構造的に再設計することができない機能を提供している。
論文 参考訳(メタデータ) (2026-05-19T19:47:40Z) - Inter-Layer Hessian Analysis of Neural Networks with DAG Architectures [45.88028371034407]
現代の自動微分フレームワーク(JAX, PyTorch)は、層間相互作用の内部構造を公開することなく、損失関数のヘシアンをモノリシックテンソルとして返す。
この理論解析は、経験的ネットワークとスキップスキップ時の接続における共鳴の指数的減衰を説明する。
論文 参考訳(メタデータ) (2026-04-13T15:48:41Z) - Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - Group Representational Position Encoding [66.33026480082025]
グループ行動に基づく位置符号化のための統一的なフレームワークであるGRAPEを提案する。
i)乗法回転 (Multiplicative GRAPE) in $mathrmSO(d)$ と (ii)加法ロジットバイアス (Additive GRAPE) は一般線型群 $mathrmGL$ における一等作用から生じる。
論文 参考訳(メタデータ) (2025-12-08T18:39:13Z) - Measurement-induced Lévy flights of quantum information [35.31418199674737]
隣接地におけるフラストレーションのある局所測定対象の1次元自由フェルミオンモデルについて検討する。
最大配向については、測定誘起準粒子崩壊速度の消滅により超拡散挙動が生じる。
本研究は, 地域のハミルトン人を対象に, 複雑なフラクタルスケーリングの絡み合わせをいかに生み出すかを示すものである。
論文 参考訳(メタデータ) (2025-01-22T14:29:13Z) - Entanglement renormalization of fractonic anisotropic $\mathbb{Z}_N$ Laplacian models [4.68169911641046]
ギャップフラクトン相は、トポロジカル秩序に接続するが、既存のパラダイムに容易に適合しない物質の新しい種類の量子状態を構成する。
任意のグラフ上で定義されるフラクトン相の族を記述することができる異方性 $mathbbZ_N$ Laplacian モデルについて検討する。
論文 参考訳(メタデータ) (2024-09-26T18:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。