論文の概要: Dead-Direction Signatures: A Cheap Spectral Reading of Singular Complexity
- arxiv url: http://arxiv.org/abs/2606.21158v1
- Date: Fri, 19 Jun 2026 06:49:09 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:24:52.101858
- Title: Dead-Direction Signatures: A Cheap Spectral Reading of Singular Complexity
- Title(参考訳): Dead-Direction Signatures: Singular Complexityのチープスペクトル読解
- Authors: Tejas Pradeep Shirodkar, P. J. Narayanan,
- Abstract要約: 特異学習理論は、損失特異点の幾何学を通して深いネットワークの複雑さを特徴づける。
単体構造をもつ安価でクローズドなスペクトル読影器であるDeadDirection Signatures (DDS)を紹介する。
それぞれが選択された層でネットワークの活性化行列またはサンプル単位のフィッシャーグラムを読み、後鎖スペクトル線型代数を置き換える。
- 参考スコア(独自算出の注目度): 5.67642958049511
- License:
- Abstract: Singular learning theory characterises the complexity of a deep network through the geometry of its loss singularities. The local learning coefficient (LLC), the standard estimator of Watanabe's real log canonical threshold (RLCT, $λ$), reads this geometry as an integrated Bayesian scalar through SGLD, which needs per-task calibration and $10^4$-$10^6$ forward-backward passes per checkpoint. We introduce Dead-Direction Signatures (DDS), a family of cheap closed-form spectral readings of singular structure: each reads a network's activation matrix or per-sample-gradient Fisher-Gram at a chosen layer, replacing the SGLD posterior chain with spectral linear algebra. The readings rest on a dead-direction framework that predicts a structural correlation between activation- and Fisher-side spectra at any singular minimum, and a rank-multiplicative volume identity that single-eigenvalue monitors cannot produce: the active-volume $\log\det^{+}(G)$ slope counts the dead directions, tracking the rank-deficit $r$ across $r \in \{1,2,3,4\}$ (slope ratios $2.0, 3.1, 4.0$ at $r{=}2,3,4$ against the predicted $2,3,4$), where the smallest eigenvalue is rank-blind. On reduced-rank regression with closed-form $λ$, calibrated LLC recovers $λ$ at $99\%$ mean and the DDS observables rank-track it at the framework-predicted sign; on a non-linear modular-addition transformer DDS separates $d_{\mathrm{model}}$ across eighteen orders of magnitude where calibrated LLC at the protocol budget is rank-flat. Complementary to LLC's integrated posterior reading, DDS gives a directional, layer-local handle on a network's dead directions, read in closed form from its activation and gradient spectra.
- Abstract(参考訳): 特異学習理論は、損失特異点の幾何学を通して深いネットワークの複雑さを特徴づける。
実対数標準しきい値(RLCT,$λ$)の標準推定値である局所学習係数(LLC)は、この幾何学をSGLDを通じてベイズスカラーとして読み出す。
本稿では,SGLD後続鎖をスペクトル線形代数に置き換え,ネットワークのアクティベーション行列やサンプルごとの勾配フィッシャー-グラムを選択層で読み取る,単体構造の安価なクローズドフォームスペクトル読影系であるDead-Direction Signatures (DDS)を紹介する。
読み取りは、任意の特定の最小値でアクティベーションとフィッシャー側のスペクトルの間の構造的相関を予測するデッドダイレクトフレームワークと、単一固有値モニタが生成できないランク乗算ボリュームID(英語版)である: アクティブボリューム $\log\det^{+}(G)$ 傾斜は、死の方向をカウントし、$r \in \{1,2,3,4\}$(スロープ比$2.0, 3.1, 4.0$ at $r{=}2,3,4$)を追跡する。
クローズドフォームの$λ$でリカバリされた LLCは$λ$を99\%$平均でリカバリし、DDSオブザーバブルはフレームワーク予測符号でランク追跡する。
DDSはLLCの集積後読みと相まって、ネットワークのデッド方向の指向性のある層局所ハンドルを与え、そのアクティベーションと勾配スペクトルから閉じた形で読み取る。
関連論文リスト
- Representation Without Reward: A JEPA Audit for LLM Fine-Tuning [1.2691047660244335]
JEPA(Joint-embedding predictive Architectures)は、モデルが観測された出力よりも遅延表現を予測できるように訓練された時に、より有用な抽象化を学ぶべきであることを提案している。
自己回帰型言語モデルの微調整には、この原理はより厳密な要件を必要とする。
我々は、Llama-3.2-1B-Instruct LoRA を用いて、自然言語からレジェックス生成におけるその要件を検証した。
論文 参考訳(メタデータ) (2026-05-14T20:27:32Z) - Geometric and Spectral Alignment for Deep Neural Network I [12.227949990332363]
我々はフロベニウス正規化層因子の特異スペクトルに対する決定論的商-幾何推定を証明した。
フルランク因子は$mathrmGL(d)$から$Amapsto Atop A$によって正の円錐にマッピングされ、次に順序付けられた固有値データにマップされる。
正規化残鎖に対する近似パワーローおよび計量チャートバージョン、逆下界、フィッシャー--KL/バーズ作用推定、およびほぼ同一性拡張を証明した。
論文 参考訳(メタデータ) (2026-05-04T00:07:24Z) - Spectral Edge Dynamics of Training Trajectories: Signal--Noise Geometry Across Scales [0.0]
コンヒーレントな方向のみにおいてトランスフォーマー訓練軌道が発展することを示す。
共同作業では、同じスペクトル幾何学がグラッキングの早期警戒信号を提供する。
論文 参考訳(メタデータ) (2026-03-14T04:46:05Z) - Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning [61.07540493350384]
自己蒸留(英: Self-distillation, SD)とは、教師自身の予測と地道の混合で学生を訓練する過程である。
任意の予測リスクに対して、各正規化レベルにおいて、最適に混合された学生がリッジ教師に改善されることが示される。
本稿では,グリッド探索やサンプル分割,再構成なしに$star$を推定する一貫したワンショットチューニング手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T17:21:15Z) - Arithmetic-Mean $μ$P for Modern Architectures: A Unified Learning-Rate Scale for CNNs and ResNets [9.94514344279733]
Arithmetic-Mean $mu$P は個々の層ではなく、ネットワーク全体の平均1ステップのプレアクティベーション第2モーメントを一定スケールに制限する。
1次元および2次元の畳み込みネットワークの場合、最大更新学習率は$etastar(L)propto L-3/2$; を満足する。
論文 参考訳(メタデータ) (2025-10-05T19:22:50Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - Emergence and scaling laws in SGD learning of shallow neural networks [64.48316762675141]
等方性ガウスデータに基づいてP$ニューロンを持つ2層ニューラルネットワークを学習するためのオンライン勾配降下(SGD)の複雑さについて検討した。
平均二乗誤差(MSE)を最小化するために,学生2層ネットワークのトレーニングのためのSGDダイナミックスを高精度に解析する。
論文 参考訳(メタデータ) (2025-04-28T16:58:55Z) - Differentially Private Exploration in Reinforcement Learning with Linear
Representation [102.17246636801649]
まず,線形混合MDP(Ayob et al., 2020)の設定(モデルベース設定)について検討し,共同・局所微分プライベート(DP)探索を統一的に分析するための枠組みを提供する。
我々はさらに、線形MDP(Jin et al., 2020)におけるプライバシー保護探索(つまりモデルフリー設定)について研究し、$widetildeO(sqrtK/epsilon)$ regret bound for $(epsilon,delta)を提供する。
論文 参考訳(メタデータ) (2021-12-02T19:59:50Z) - On the Global Convergence of Training Deep Linear ResNets [104.76256863926629]
我々は、$L$-hidden-layer linear residual network(ResNets)のトレーニングのための勾配降下(GD)と勾配降下(SGD)の収束について検討する。
入力層と出力層で一定の線形変換を施したディープ残差ネットワークのトレーニングを行う場合,GDとSGDは共に,トレーニング損失の最小限に収束できることを示す。
論文 参考訳(メタデータ) (2020-03-02T18:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。