論文の概要: Conservation Laws for Modern Neural Architectures
- arxiv url: http://arxiv.org/abs/2606.17816v1
- Date: Tue, 16 Jun 2026 11:44:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.406171
- Title: Conservation Laws for Modern Neural Architectures
- Title(参考訳): 現代ニューラルアーキテクチャの保存法則
- Authors: Viet-Hoang Tran, Vinh Khanh Bui, Tan Lai Ngoc, Nam Nguyen, Tuan Dam, Tan M. Nguyen,
- Abstract要約: 本研究は,GELU,SiLU,SwiGLUによるフィードフォワードネットワーク,正弦波および回転位置符号化によるマルチヘッドアテンション,多様なゲーティング設計によるMixture-of-Expertsアーキテクチャなど,現代モデルの保全法則を特徴付ける統一的な枠組みを開発する。
- 参考スコア(独自算出の注目度): 3.344515796046363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding gradient descent dynamics is key to explaining the success of over-parameterized models, where implicit bias manifests through conservation laws in gradient flow. While such laws are well understood for linear and ReLU networks, they remain largely unexplored for modern architectures. This work develops a unified framework to characterize conservation laws for contemporary models, including feedforward networks with GELU, SiLU, and SwiGLU activations, multihead attention with sinusoidal and rotary positional encodings, and Mixture-of-Experts architectures under diverse gating designs. Our theoretical findings are supported by experiments that validate the predicted invariants.
- Abstract(参考訳): 勾配降下力学を理解することは、勾配流の保存則を通して暗黙のバイアスが現れる過パラメータ化モデルの成功を説明する鍵となる。
このような法則は線形およびReLUネットワークではよく理解されているが、現代のアーキテクチャでは探索されていない。
本研究は,GELU,SiLU,SwiGLUによるフィードフォワードネットワーク,正弦波および回転位置符号化によるマルチヘッドアテンション,多様なゲーティング設計によるMixture-of-Expertsアーキテクチャなど,現代モデルの保全法則を特徴付ける統一的な枠組みを開発する。
予測不変量を検証する実験により, 理論的知見が得られた。
関連論文リスト
- Large Vision-Language Models Get Lost in Attention [51.851592109135716]
本稿では,情報理論と幾何に基づく統合フレームワークを提案し,残差更新の幾何的およびエントロピー的性質を定量化する。
注意は再設定に焦点を当てたサブスペース言語演算子として機能し、FFNはセマンティックイノベーションを駆動するサブスペース言語演算子として機能します。
論文 参考訳(メタデータ) (2026-05-07T04:45:52Z) - A Structure-Preserving Graph Neural Solver for Parametric Hyperbolic Conservation Laws [1.988145627448243]
本稿では,古典的数値原理をグラフニューラルネットワーク(GNN)でブリッジする,解釈可能な構造保存型グラフニューラルネットワークを提案する。
Arbitrary High-order DERivativesスキームにインスパイアされた我々は、メッセージパッシングGNNを高次時空予測器として再キャストする。
ニューラルソルバは、強いサロゲートベースラインと比較して、長軸ロールアウト安定性と精度に優れる。
論文 参考訳(メタデータ) (2026-04-17T01:45:54Z) - Catastrophic Forgetting in Kolmogorov-Arnold Networks [27.683054983159835]
破滅的な忘れは継続的な学習における長年の挑戦である。
Kolmogorov-Arnold Networks (KANs) のような最近のアーキテクチャの進歩は、忘れることに対する本質的な抵抗を提供するように提案されている。
本稿では,カーンズにおける破滅的な忘れを包括的に研究し,忘れをアクティベーションサポートの重複と本質的なデータ次元に結びつける理論的枠組みを開発する。
論文 参考訳(メタデータ) (2025-11-16T23:22:50Z) - Information-Theoretic Framework for Understanding Modern Machine-Learning [4.435094091999926]
本稿では,学習をログ損失下での普遍的な予測とみなす情報理論フレームワークを提案する。
成功するアーキテクチャは幅広い複雑さの範囲を持ち、高度に過度にパラメータ化されたモデルクラスでの学習を可能にしている、と我々は主張する。
この枠組みは、誘導バイアスの役割、降下勾配の効果、および平坦なミニマのような現象に光を当てている。
論文 参考訳(メタデータ) (2025-06-09T11:32:31Z) - Transformative or Conservative? Conservation laws for ResNets and Transformers [28.287184613608435]
本稿では,近代建築の保全法則の導出と解析により,そのギャップを埋める。
まず、ReLU(あるいは線形)浅層ネットワークのような基本構造ブロックは、畳み込みの有無にかかわらず、容易に保存則を表現できることを示す。
次に、パラメータのサブセットにのみ依存する保存法則の概念を導入する。
論文 参考訳(メタデータ) (2025-06-06T15:53:35Z) - Conservation-informed Graph Learning for Spatiotemporal Dynamics Prediction [84.26340606752763]
本稿では,保護インフォームドGNN(CiGNN)について紹介する。
このネットワークは、保守的かつ非保守的な情報が、潜時的行進戦略によって多次元空間を通過する対称性による一般的な対称性保存則に従うように設計されている。
結果は,CiGNNが顕著なベースライン精度と一般化性を示し,様々な時間的ダイナミクスの予測のための学習に容易に適用可能であることを示した。
論文 参考訳(メタデータ) (2024-12-30T13:55:59Z) - State-space models can learn in-context by gradient descent [1.3087858009942543]
状態空間モデルは、勾配に基づく学習を実行し、変換器と全く同じ方法で、文脈内学習に使用することができることを示す。
具体的には、1つの構造化状態空間モデル層が乗算入力と出力ゲーティングで拡張され、暗黙線形モデルの出力を再現できることを証明した。
また、状態空間モデルと線形自己意識の関係と、文脈内で学習する能力に関する新たな知見を提供する。
論文 参考訳(メタデータ) (2024-10-15T15:22:38Z) - From NeurODEs to AutoencODEs: a mean-field control framework for
width-varying Neural Networks [68.8204255655161]
本稿では,動的に駆動する制御フィールドをベースとした,AutoencODEと呼ばれる新しいタイプの連続時間制御システムを提案する。
損失関数が局所凸な領域では,多くのアーキテクチャが復元可能であることを示す。
論文 参考訳(メタデータ) (2023-07-05T13:26:17Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。