論文の概要: Attention is Just Another Name for Coupling?: A Fast-Slow ODE Perspective on Hierarchical Pretraining
- arxiv url: http://arxiv.org/abs/2606.16730v1
- Date: Mon, 15 Jun 2026 13:54:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.589751
- Title: Attention is Just Another Name for Coupling?: A Fast-Slow ODE Perspective on Hierarchical Pretraining
- Title(参考訳): Atention is just Another Name for Coupling?: A Fast-Slow ODE Perspective on Hierarchical Pretraining
- Authors: Zhengyuan Gao,
- Abstract要約: 本稿では,ゼロ初期化ゲート補間により,時間的に遅い第2のカップリングが高速経路にフィードバックされるかどうかを問う。
本論文は、高速スローODE形式を具体的なニューラルネットワークとしてインスタンス化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Causal self-attention is a coupling mechanism: each token's hidden state is updated by a learned mixture of preceding tokens at the same timescale. This paper asks whether a second, temporally slower coupling-a slow sub-system operating on a temporally-downsampled view of the sequence and fed back into the fast path through a zero-initialised gate-complements it. The question is framed in the language of singularly perturbed ordinary differential equations (ODEs), where the fast variable $x$ evolves at the token rate, the slow variable $y$ evolves at one update per $P$ tokens, and the timescale ratio $\varepsilon = 1/P$ is enforced structurally by causal block-mean pooling. The paper instantiates the fast-slow ODE formalism as a concrete neural network: a fast path of standard causal attention over $T$ tokens, a slow path of full attention over $T/P$ pooled tokens ($P^2 \times$ cheaper per layer), and a zero-initialised additive gate. In addition, under a linear-generator assumption on the fast dynamics, we prove that the equilibrium manifold $x = φ(y)$ is exactly the master-equation (ME) stationary distribution $p_{\mathrm{st}}(y)$; in that regime a learned MLP $φ_θ(y)$ is a variational approximation of it (the trained block is not a generator, so this identity is the structured limit, not a claim about the network as trained). Empirically, at $500$k tokens the coupling is neutral -- the gate stays closed and the coupled and frozen ablations are within run-to-run noise -- at a wall-clock cost comparable to a dense baseline. The contribution is the precise, gap-marked mapping itself, not a performance gain.
- Abstract(参考訳): 因果自己保持は結合メカニズムであり、各トークンの隠された状態は、同じ時間スケールで前のトークンの学習された混合によって更新される。
本稿では、時間的に遅い結合系の第2の部分系が、時間的にサンプリングされたシーケンスのビューで動作し、ゼロ初期化ゲート補間によって高速経路にフィードバックされるかどうかを問う。
この問題は特異摂動常微分方程式(ODE)の言語で表され、高速変数 $x$ はトークンレートで進化し、遅い変数 $y$ はトークンの1回の更新で進化し、タイムスケール比 $\varepsilon = 1/P$ は因果ブロック平均プールによって構造的に強制される。
この論文は、高速スローODEフォーマリズムを具体的なニューラルネットワークとしてインスタンス化している:$T$トークンに対する標準的な因果的注意の高速パス、$T/P$プールされたトークンに対する完全な注意の遅いパス(P^2 \times$1層あたりのコスト)、ゼロ初期化付加ゲート。
さらに、高速力学上の線型生成的仮定の下で、平衡多様体 $x = φ(y)$ がちょうどマスター方程式(ME)定常分布 $p_{\mathrm{st}}(y)$ であることを証明する。
経験的に、500ドルというトークンでは、結合は中立であり、ゲートは閉じられ、結合および凍結されたアブレーションは、高密度のベースラインに匹敵するウォールクロックコストで実行時ノイズ内にある。
コントリビューションは、パフォーマンス向上ではなく、正確でギャップマーク付きのマッピングそのものです。
関連論文リスト
- Transformers Provably Learn to Internalize Chain-of-Thought [65.41010769606844]
Implicit Chain-of-Thought (ICoT) は、隠れた状態の中で中間段階を内部化するモデルを訓練する。
Log-ICoTはシンキングトークンを一度に削除し、$k$のリニアから対数へのステージ数を削減します。
多層変圧器の実験により理論が確認され、より深い層に段階的に推論がどのように吸収されるかが可視化される。
論文 参考訳(メタデータ) (2026-05-27T15:17:06Z) - Deterministic Realization of Classical Dissipation on Quantum Computers [0.0]
量子デバイス上の格子ボルツマン (LB) は、単体ゲートの進化を散逸するエルフ衝突ステップと調整しなければならない。
MRT(Multiple-relaxation-time)クラスでは、m_r'=_r,m_r$ with $_rin[-1,1]$という、近視的対角モーメント緩和の一般的な設定で作業します。
主な結果は散逸 MRT ブロックであり、平衡モーメントベクトル$mmathrmeq=Mfmathrm の構築である。
論文 参考訳(メタデータ) (2026-04-28T09:36:40Z) - Dimensional Criticality at Grokking Across MLPs and Transformers [2.652953665748039]
異なる力学系間の急激な遷移は、複雑なシステムの目印である。
オフライン雪崩探査機 textbfTDU-OFC (Thresholded Diffusion Update--Olami-Feder-Christensen) を紹介する。
モジュラー加算と XOR で訓練された一般化を訓練したトランスフォーマーは、拡散ベースラインの局所的交差をD=1$で発見する。
論文 参考訳(メタデータ) (2026-04-06T13:43:20Z) - Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference [1.7523718031184992]
この障害の基本的なメカニズムは、 textbf Premature Mode Collapseである。
提案手法は,適応型スケジューリングアルゴリズムであるtextbfEfficient Piecewise Hybrid Adaptive Stability Control (EPH-ASC) で,推論過程の安定性をモニタする。
論文 参考訳(メタデータ) (2026-01-30T14:47:18Z) - Realizing Unitary $k$-designs with a Single Quench [0.0]
最小限の制御で$k$-designsを生成する単一待ち行列プロトコルを提案する。
このプロトコルは、運用上、測定に優しい$t_mathrmTh$を定義し、カオス性の定量的診断を提供する。
論文 参考訳(メタデータ) (2025-11-17T19:00:04Z) - INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - Accelerated Evolving Set Processes for Local PageRank Computation [75.54334100808022]
この研究は、パーソナライズされたPageRank計算を高速化するために、ネストした進化したセットプロセスに基づく新しいフレームワークを提案する。
このような局所化手法の時間複雑性は、PPRベクトルの$epsilon$-approximationを得るために$mintildemathcalO(R2/epsilon2), tildemathcalO(m)$によって上界となることを示す。
論文 参考訳(メタデータ) (2025-10-09T09:47:40Z) - Proving the Limited Scalability of Centralized Distributed Optimization via a New Lower Bound Construction [57.93371273485736]
我々は、すべての労働者が同一の分布にアクセスする均質な(すなわちd.d.)場合であっても、すべての労働者が非バイアス付き境界 LDeltaepsilon2,$$$$$ のポリ対数的により良いポリ対数を求める集中型分散学習環境を考える。
論文 参考訳(メタデータ) (2025-06-30T13:27:39Z) - Sharper Convergence Guarantees for Asynchronous SGD for Distributed and
Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。
本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。
また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文 参考訳(メタデータ) (2022-06-16T17:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。