論文の概要: Rank Collapse, Fixed Points, and the Renormalization Group Structure of MLP Residual Networks
- arxiv url: http://arxiv.org/abs/2606.10324v1
- Date: Tue, 09 Jun 2026 02:19:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.266664
- Title: Rank Collapse, Fixed Points, and the Renormalization Group Structure of MLP Residual Networks
- Title(参考訳): MLP残差ネットワークのランク崩壊, 固定点, 正規化群構造
- Authors: Parviz Haggi-Mani, Irina Rish,
- Abstract要約: 類似が抽出可能な最も単純なアーキテクチャについて検討する。
残留流の有効ランクはトレーニング後の深度とともに単調に低下する。
ネットワークは、予測タスクに関連する自由度を正確に保持する。
- 参考スコア(独自算出の注目度): 16.36212521143563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The analogy between deep neural network forward passes and renormalization group (RG) flows has been repeatedly noted in the literature, but existing treatments remain qualitative: depth is described as a coarse-graining scale, attention is likened to a partition function, and representations are said to flow toward fixed points. No existing work has defined a measurable RG order parameter, tested it under controlled variation of the input distribution, or made quantitative predictions that are empirically verified. We study the simplest architecture for which the analogy is tractable: a pure MLP residual stack trained on masked token prediction over synthetic Markov chain sequences with known spectral properties. We report three findings. (i) The effective rank of the residual stream decreases monotonically with depth after training, consistent with progressive integration of irrelevant degrees of freedom. (ii) This rank collapse is selective: it occurs for chains with short correlation length approximately 1 but is absent for chains with long correlation length approximately 7, measured at the position level to control for mean-pooling artifacts. The network preserves exactly the degrees of freedom relevant to the prediction task, the content of the RG relevance criterion. (iii) Inter-layer kernel drift is concentrated at one or two specific transitions, with the remainder of the network near a fixed point, consistent with a discrete fixed-point plateau. Together these findings constitute the first quantitative, position-level evidence that MLP residual networks implement a selective coarse-graining procedure governed by the spectral structure of the input distribution.
- Abstract(参考訳): ディープ・ニューラル・ネットワーク・フォワードとリノベーション・グループ(RG)フローの類似性は文献で繰り返し指摘されているが、既存の治療は質的であり、ディープ・ニューラル・ネットワーク・フォワードは粗粒度、注意は分割関数に似ており、表現は固定点に向かって流れると言われている。
既存の研究では、測定可能なRG順序パラメータを定義したり、入力分布の制御された変動の下でテストしたり、経験的に検証された定量的な予測を行ったりしていない。
マスク付きトークン予測に基づいて訓練された純粋なMLP残差スタックを、既知のスペクトル特性を持つ合成マルコフ連鎖列上での単純なアーキテクチャについて検討する。
我々は3つの発見を報告した。
一 残留流の有効位は、訓練後の深度とともに単調に減少し、無関係な自由度の漸進的な統合と整合する。
2) このランク崩壊は, 短相関長約1の鎖に対して発生するが, 位置レベルで測定された長相関長約7の鎖では欠落し, 平均プールアーティファクトを制御する。
ネットワークは、予測タスク、RG関連基準の内容に関連する自由度を正確に保持する。
3) 層間カーネルドリフトは1つまたは2つの特定の遷移に集中し、ネットワークの残りの部分は固定点付近で、離散的な固定点台地と整合する。
これらの知見は、MLP残差ネットワークが入力分布のスペクトル構造に支配される選択的粗粒化処理を実装していることを示す最初の定量的、位置レベルの証拠である。
関連論文リスト
- Sequential Spatiotemporal Magnetic-Field Reconstruction via Quantum Hamiltonian Learning with NV-Center Spin-1 Hamiltonians [0.0]
動的2次元磁場マップのための量子ハミルトニアン学習に基づく逐次再構成フレームワークを提案する。
局所的な測定は、局所磁場値と共有双極子結合パラメータによって支配される窒素空隙スピンダイナミクスによって生成される。
その結果、試験対象のフィールドクラスの実現可能性を示し、結合推定を主な識別可能性ボトルネックとして同定した。
論文 参考訳(メタデータ) (2026-05-22T10:13:04Z) - DeRegiME: Deep Regime Mixtures for Probabilistic Forecasting under Distribution Shift [10.952188121974613]
DeRegiMEは、直接マルチホライズン確率予測器である。
潜伏した不確実性体制と根底にある信号とを分離する。
各予測位置を学習された繰り返しレジームに割り当てる。
論文 参考訳(メタデータ) (2026-05-19T01:04:21Z) - Relaxation-Informed Training of Neural Network Surrogate Models [3.9722979176564763]
ReLUニューラルネットワーク訓練サロゲートモデルは、MILP(mixed-integer linear program)に正確に埋め込まれる。
結果として得られるMILPのトラクタビリティは、ネットワークの構造的特性に依存する。
提案した正規化器は, 最大4桁のMILP時間を非正規化ベースラインに短縮できることを示す。
論文 参考訳(メタデータ) (2026-04-24T17:46:55Z) - Verifying Closed-Loop Contractivity of Learning-Based Controllers via Partitioning [52.23804865017831]
本稿では,ニューラルネットワークによるパラメータ化を行う非線形制御系における閉ループ収縮の検証問題に対処する。
我々は、対称メッツラー行列の優越的固有値が非正であることを確かめるために、閉ループの縮約性に対するトラクタブルでスケーラブルな十分条件を導出する。
論文 参考訳(メタデータ) (2025-12-01T23:06:56Z) - Shift Before You Learn: Enabling Low-Rank Representations in Reinforcement Learning [56.87989363424]
シフトした後継尺度において,低ランク構造が自然に現れることを示す。
有効な低ランク近似と推定に必要なシフトの量を定量化する。
論文 参考訳(メタデータ) (2025-09-05T15:48:20Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - The Sample Complexity of One-Hidden-Layer Neural Networks [57.6421258363243]
本研究では,スカラー値を持つ一層ネットワークのクラスとユークリッドノルムで有界な入力について検討する。
隠蔽層重み行列のスペクトルノルムの制御は、一様収束を保証するには不十分であることを示す。
スペクトルノルム制御が十分であることを示す2つの重要な設定を解析する。
論文 参考訳(メタデータ) (2022-02-13T07:12:02Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。