論文の概要: A Link between Shock-wave Theory and Symmetry-reduced Stochastic Gradient Descent for Artificial Neural Networks
- arxiv url: http://arxiv.org/abs/2606.18303v1
- Date: Tue, 16 Jun 2026 06:20:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.804765
- Title: A Link between Shock-wave Theory and Symmetry-reduced Stochastic Gradient Descent for Artificial Neural Networks
- Title(参考訳): ニューラルネットワークにおける衝撃波理論と対称性による確率勾配勾配の関連性
- Authors: Taiki Miyagawa,
- Abstract要約: 我々は、衝撃波理論と勾配降下の対称性商化学習力学とを数学的に明示的に関連づける。
我々は,マルチ層パーセプトロン,畳み込みニューラルネットワーク,トランスフォーマー,平均場ネットワークがハミルトン-ヤコビ型あるいはバーガース型方程式に従うことを示す。
- 参考スコア(独自算出の注目度): 10.076691842234002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a mathematically explicit link between shock-wave theory and the symmetry-quotiented learning dynamics of stochastic gradient descent, drawing on differential geometry, Lie group theory, and fluid mechanics. Specifically, after quotienting parameter symmetries and applying local-entropy coarse-graining, the effective dynamics satisfy a viscous Hamilton--Jacobi equation on the quotient manifold. Moreover, under the assumption that the raw parameter dynamics can be summarized by a gradient field on the quotiented space, the gradient of the coarse-grained loss function obeys a Burgers-type equation, and shock formation can be established rigorously. We apply our theory to multilayer perceptrons, convolutional neural networks, Transformers, and mean-field networks, and show that they obey the Hamilton--Jacobi or Burgers-type equations. We conjecture that this framework also yields practical diagnostics for deep learning. In architectures such as Transformers, raw parameter norms are often distorted by symmetry redundancy and may therefore be misleading, whereas symmetry-corrected quotient observables provide a principled basis for monitoring, forecasting, and controlling training-phase transitions.
- Abstract(参考訳): 我々は、衝撃波理論と確率勾配降下の対称性商学習力学、微分幾何学、リー群理論、流体力学との数学的に明示的なリンクを開発する。
具体的には、パラメータ対称性を商化し、局所エントロピー粗粒化を適用すると、有効動力学は商多様体上の粘性ハミルトン-ヤコビ方程式を満たす。
さらに、原パラメータのダイナミクスを商空間上の勾配場で要約できるという仮定の下で、粗粒度損失関数の勾配はバーガース型方程式に従い、衝撃生成を厳密に行うことができる。
我々は、この理論を多層パーセプトロン、畳み込みニューラルネットワーク、トランスフォーマー、平均場ネットワークに適用し、ハミルトン-ヤコビ型方程式やバーガース型方程式に従うことを示す。
我々は,この枠組みが深層学習の実践的診断をもたらしていると推測する。
トランスフォーマーのようなアーキテクチャでは、生パラメータノルムはしばしば対称性の冗長性によって歪められ、したがって誤解を招くことがあるが、対称性の補正された商観測器は、監視、予測、訓練相転移の制御に原則化された基礎を提供する。
関連論文リスト
- Thermodynamic Response Functions in Singular Bayesian Models [0.12183405753834557]
非特定方向を商化する可観測代数を定式化し、構造的に意味のある順序パラメータを特異なモデルで構築する。
以上の結果から,熱力学的応答理論は,特異ベイズ学習における複雑性,予測変数,構造的再編成を解釈する自然な枠組みを提供すると考えられる。
論文 参考訳(メタデータ) (2026-03-05T18:50:20Z) - Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。
以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。
我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。
この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文 参考訳(メタデータ) (2025-06-28T01:46:36Z) - Why Neural Network Can Discover Symbolic Structures with Gradient-based Training: An Algebraic and Geometric Foundation for Neurosymbolic Reasoning [73.18052192964349]
我々は、連続的なニューラルネットワークトレーニングのダイナミックスから、離散的なシンボル構造が自然に現れるかを説明する理論的枠組みを開発する。
ニューラルパラメータを測度空間に上げ、ワッサーシュタイン勾配流としてモデル化することにより、幾何的制約の下では、パラメータ測度 $mu_t$ が2つの同時現象となることを示す。
論文 参考訳(メタデータ) (2025-06-26T22:40:30Z) - Parameter Symmetry and Noise Equilibrium of Stochastic Gradient Descent [8.347295051171525]
勾配ノイズは、退化方向に沿ってパラメータ$theta$の体系的な相互作用を、一意に依存しない固定点$theta*$へと生成することを示す。
これらの点をノイズ平衡(it noise equilibria)と呼ぶのは、これらの点において、異なる方向からのノイズ寄与がバランスと整合性を持つためである。
勾配雑音のバランスとアライメントは、ニューラルネットワーク内でのプログレッシブ・シャープニング/フラット化や表現形成といった重要な現象を説明するための新しいメカニズムとして機能することを示す。
論文 参考訳(メタデータ) (2024-02-11T13:00:04Z) - Symmetry Induces Structure and Constraint of Learning [0.0]
機械学習モデルの学習行動に影響を及ぼすか、決定しないかにかかわらず、損失関数対称性の重要性を明らかにする。
ディープラーニングにおけるミラー対称性の一般的な例としては、再スケーリング、回転、置換対称性がある。
ニューラルネットワークにおける可塑性の喪失や様々な崩壊現象などの興味深い現象を理論的枠組みで説明できることを示す。
論文 参考訳(メタデータ) (2023-09-29T02:21:31Z) - Machine Learning S-Wave Scattering Phase Shifts Bypassing the Radial
Schr\"odinger Equation [77.34726150561087]
本稿では, 畳み込みニューラルネットワークを用いて, 正確な散乱s波位相シフトを得られる機械学習モデルの実証を行う。
我々は、ハミルトニアンが物理的に動機づけられた記述子の構築において、いかにして指導原理として機能するかについて議論する。
論文 参考訳(メタデータ) (2021-06-25T17:25:38Z) - Adding machine learning within Hamiltonians: Renormalization group
transformations, symmetry breaking and restoration [0.0]
我々は、位相分類のために設計されたニューラルネットワークの予測関数を、系のハミルトニアン内の外部磁場に結合した共役変数として含む。
結果は, 対称性を破り, 復元することで, 秩序相転移を誘導できることを示す。
機械学習と物理をブリッジする上で,この手法がいかに重要なステップを提供するかを論じる。
論文 参考訳(メタデータ) (2020-09-30T18:44:18Z) - Understanding Graph Neural Networks with Generalized Geometric
Scattering Transforms [67.88675386638043]
散乱変換は、畳み込みニューラルネットワークのモデルとして機能する多層ウェーブレットベースのディープラーニングアーキテクチャである。
非対称ウェーブレットの非常に一般的なクラスに基づくグラフに対して、窓付きおよび非窓付き幾何散乱変換を導入する。
これらの非対称グラフ散乱変換は、対称グラフ散乱変換と多くの理論的保証を持つことを示す。
論文 参考訳(メタデータ) (2019-11-14T17:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。