Fugu-MT 論文翻訳(概要): Learning Dynamics Reveal a Hierarchy of Weight-Induced Layerwise Gram Metrics

論文の概要: Learning Dynamics Reveal a Hierarchy of Weight-Induced Layerwise Gram Metrics

arxiv url: http://arxiv.org/abs/2606.09744v2
Date: Tue, 09 Jun 2026 11:03:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-10 13:21:50.905893
Title: Learning Dynamics Reveal a Hierarchy of Weight-Induced Layerwise Gram Metrics
Title（参考訳）: 重み付き層状グラムの階層構造を学習ダイナミクスが明らかにする
Authors: Claudio Nordio,
Abstract要約: 本稿では,フィードフォワードReLUネットワークの読み出しと2次損失について検討する。目的は、主に重み空間のダイナミクスとしてではなく、トレーニングセット空間上で定義された体で閉じた集合力学として勾配勾配を書き換えることである。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We study feed-forward ReLU networks with fixed readout and quadratic loss. The aim is to rewrite gradient descent not primarily as a dynamics in weight space, but as a collective dynamics closed in terms of fields defined on the training-set space. For a single hidden layer, the weight variables can be eliminated from the activation dynamics, yielding a closed equation for the residuals governed by a collective kernel that factorizes into an input-geometric matrix and a dynamical co-activation matrix. For deeper networks, the residual dynamics retains a clean layer-wise kernel structure. However, from depth three onward, closure requires a hierarchy of weight-induced Gram operators that mediate information transport across layers. Moreover, the conjugate-field dynamics is governed by operators satisfying a backward pullback recursion, of which the weight-induced Gram operators are the first nontrivial instances.
Abstract（参考訳）: 本稿では,フィードフォワードReLUネットワークの読み出しと2次損失について検討する。目的は、主に重み空間のダイナミクスとしてではなく、トレーニングセット空間上で定義された体で閉じた集合力学として勾配勾配を書き換えることである。単一の隠蔽層では、重み変数を活性化ダイナミクスから排除し、入力幾何学行列と動的共活性化行列に分解する集合核が支配する残差に対する閉方程式を生成する。より深いネットワークでは、残留ダイナミクスはクリーンな層回りのカーネル構造を保持する。しかし、ディープ3からクロージャは、層をまたぐ情報伝達を仲介する重み付きグラマー演算子の階層構造を必要とする。さらに、共役場力学は、重み付きグラマー作用素が最初の非自明なインスタンスである逆引き戻し再帰を満たす作用素によって制御される。

関連論文リスト

Rheos: Modelling Continuous Motion Dynamics in Hierarchical 3D Scene Graphs [9.547848533245675]
3次元シーングラフ(3DSG)は、環境の幾何学的・意味的な構造をエンコードする階層的で多重解像度の抽象化を提供する。本稿では,連続方向運動モデルを階層型3DSGの動的層に埋め込むフレームワークであるRheosを紹介する。レオスは連続的かつ好ましくない離散的指標の下で、離散的基底線を一貫して上回る。
論文参考訳（メタデータ） (2026-03-09T13:03:31Z)
Deep Delta Learning [91.75868893250662]
本稿では,標準残差接続を一般化した新しいアーキテクチャであるDeep Delta Learning(DDL)を紹介する。我々はこの演算子のスペクトル解析を行い、ゲート$(mathbfX)$がアイデンティティマッピング、投影、幾何反射のダイナミックな相互作用を可能にすることを示した。この統合により、ネットワークは階層的な遷移作用素のスペクトルを明示的に制御することができ、複雑な非単調力学のモデリングを可能にする。
論文参考訳（メタデータ） (2026-01-01T18:11:38Z)
Bulk-boundary decomposition of neural networks [3.293822034705118]
本稿では,ディープニューラルネットワークのトレーニング力学を理解するための新しいフレームワークとして,バルク境界分解を提案する。自然な拡張として、この分解に基づいて、ニューラルダイナミクスの場論的定式化を開発する。
論文参考訳（メタデータ） (2025-11-03T19:18:20Z)
Derivation of effective gradient flow equations and dynamical truncation of training data in Deep Learning [1.4050802766699084]
本稿では,ReLUアクティベーション関数を用いたDeep Learningにおいて,累積バイアスと重みを規定する明示的な方程式を導出する。この研究の主な動機は、教師あり学習における解釈可能性の問題に光を当てることである。
論文参考訳（メタデータ） (2025-01-13T15:17:28Z)
From Low Rank Gradient Subspace Stabilization to Low-Rank Weights: Observations, Theories, and Applications [85.17672240603011]
大規模言語モデルにおける重み行列の非一様低ランク特性について検討する。 WeLore(Weight Low-Rank Projection)は、重み圧縮とメモリ効率の微調整を一体化したものである。
論文参考訳（メタデータ） (2024-07-15T21:05:20Z)
Hamiltonian Mechanics of Feature Learning: Bottleneck Structure in Leaky ResNets [58.460298576330835]
ResNets と Fully-Connected Nets を相互接続する Leaky ResNets について「有効深度」に依存して検討する。この直感を利用して、以前の研究で見られるように、ボトルネック構造の出現を説明する。
論文参考訳（メタデータ） (2024-05-27T18:15:05Z)
On the impact of activation and normalization in obtaining isometric embeddings at initialization [3.3637738618247157]
層正規化は多層パーセプトロンのグラム行列を恒等行列に偏ることを示す。活性化関数のHermite展開を用いて、この速度を定量化する。
論文参考訳（メタデータ） (2023-05-28T14:45:11Z)
A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer Neural Networks [49.870593940818715]
本稿では,第1層がランダムで固定された3層NNモデルの無限幅限界について検討する。我々の理論はモデルの異なるスケーリング選択に対応しており、結果としてMF制限の2つの条件が顕著な振舞いを示す。
論文参考訳（メタデータ） (2022-10-28T17:26:27Z)
BiTAT: Neural Network Binarization with Task-dependent Aggregated Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文参考訳（メタデータ） (2022-07-04T13:25:49Z)
Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。 Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文参考訳（メタデータ） (2020-04-20T18:12:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。