論文の概要: Attention by Synchronization in Coupled Oscillator Networks
- arxiv url: http://arxiv.org/abs/2606.12059v1
- Date: Wed, 10 Jun 2026 13:28:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.470319
- Title: Attention by Synchronization in Coupled Oscillator Networks
- Title(参考訳): 結合振動子ネットワークにおける同期による注意
- Authors: Fabio Pasqualetti, Taosha Guo,
- Abstract要約: 我々は、エネルギー制約された物理基板の変圧器の注意に対処する。
ソフトマックス・アテンションは指数とグローバル・リダクションを必要とする。
そこで, 倉本同期力学は, どちらも持たず, 適切に定義された注意操作を実装していることを示す。
- 参考スコア(独自算出の注目度): 2.06545835353872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address transformer attention on energy-constrained physical substrates. Softmax attention requires exponentiation and global reduction, operations with high energy cost on von Neumann hardware and no natural physical analog. We show that Kuramoto synchronization dynamics (which arise in electrical, mechanical, superconducting, and charge-density-wave oscillator arrays, among other physical systems) implement a well-defined attention operation without either. The resulting mechanism, fixed-query oscillator attention, replaces softmax's arithmetic with the equilibration of a gradient flow on the sphere: queries are learned anchors fixed on the sphere, and free oscillators evolve under Kuramoto-Lohe dynamics until they settle at positions encoding attention weights via cosine similarity. Because the computation is equilibration, it requires no exponentiation; the only global operation is an affine normalization at readout. The fixed point is provably unique and globally attractive from almost every initial condition, a guarantee that holds across every physical realization. Empirically, at the minimal hardware configuration (oscillator dimension $d_{\mathrm{osc}}$ = 2), oscillator attention outperforms softmax on keyword spotting (+1.00 pp) and on subject-verb agreement (+5.27 pp on hard sentences, with zero training failures versus one in five for softmax). On causal language modeling, where softmax retains an advantage, oscillator attention closes the gap as $d_{\mathrm{osc}}$ grows: from +11.09 PPL at $d_{\mathrm{osc}}$ = 2 to +2.98 PPL at $d_{\mathrm{osc}}$ = 32 on WikiText-2, and from +2.39 PPL at $d_{\mathrm{osc}}$ = 2 to +0.57 PPL at $d_{\mathrm{osc}}$ = 32 on TinyStories. The main objective of this work is not to replace softmax in software but to provide a mathematically grounded blueprint for accurate attention on physical substrates.
- Abstract(参考訳): 我々は、エネルギー制約された物理基板の変圧器の注意に対処する。
ソフトマックスの注目は指数と大域的な削減、フォン・ノイマンのハードウェア上での高エネルギーコストの操作、そして自然の物理アナログは不要である。
電気, 機械, 超伝導, 帯電密度波発振器アレイなどにおいて生じる) の倉本同期ダイナミクスは, どちらも必要とせず, 十分に定義された注意操作を行う。
クエリは球面に固定されたアンカーを学習し、自由発振器は倉本-ローエ力学の下で進化し、コサイン類似性を通じて注意重みを符号化する位置に収まる。
計算は平衡であるため指数付けは不要であり、唯一の大域演算は読み出し時のアフィン正規化である。
固定点は、ほぼすべての初期条件から証明可能な特異かつグローバルに魅力的であり、すべての物理的実現にまたがる保証である。
経験的に、最小限のハードウェア構成(oscillator dimension $d_{\mathrm{osc}}$ = 2)では、発振器のアテンションはキーワードスポッティング(+1.00 pp)と主語間の合意(+5.27 pp)でソフトマックスよりも優れ、訓練の失敗は0対ソフトマックスで5対1である。
例えば、$d_{\mathrm{osc}}$ = 2 to +2.98 PPL at $d_{\mathrm{osc}}$ = 32 on WikiText-2、$2.39 PPL at $d_{\mathrm{osc}}$ = 2 to +0.57 PPL at $d_{\mathrm{osc}}$ = 32 on TinyStoriesである。
この研究の主な目的はソフトマックスをソフトウェアで置き換えることではなく、物理基板に正確に注意を向ける数学的基盤の青写真を提供することである。
関連論文リスト
- Scale-Invariant Open Quantum Systems [0.0]
我々は、スケール不変環境に結合したオープン量子システムのための完全な理論的枠組みを開発する。
この研究は、一意性定理、結果の非マルコフ力学の形式主義の証明を提供する。
本稿では, トラップイオンシミュレータ, ニュートリノ望遠鏡, 超伝導量子ビットの実験的意義について論じる。
論文 参考訳(メタデータ) (2026-05-21T18:00:36Z) - A Boundary-Layer Mechanism for One-Third Scaling in Online Softmax Classification [3.058685580689604]
ハードラベル分類は通常、スムーズな代理損失、特にソフトマックスのクロスエントロピーで訓練される。
我々は、このスムーズなサロゲートと離散ラベルのミスマッチが、パワーローラー学習曲線を生成するメカニズムを分離する。
学習速度のスケジュールは、$_g sim -1/2$の電力法則に対する一般化誤差を改善することができることを示す。
論文 参考訳(メタデータ) (2026-05-21T11:26:32Z) - The Spectral Edge Thesis: A Mathematical Framework for Intra-Signal Phase Transitions in Neural Network Training [0.0]
ニューラルネットワークトレーニングにおける位相遷移は,パラメータ更新の回転ウィンドウグラム行列のスペクトルギャップによって制御されることを示す。
adiabatic parameter $mathcalA = |G|_F / (, g2)$ control circuit stability: $mathcalA ll 1$ (plateau), $mathcalA sim 1$ (phase transition), $mathcalA gg 1$ (forgetting)
論文 参考訳(メタデータ) (2026-03-30T20:10:22Z) - Rethinking Language Model Scaling under Transferable Hypersphere Optimization [67.38433364607897]
モデル幅、深さ、トレーニングトークン、エキスパート・オブ・エキスパート(MoE)間で最適な学習率を転送する最初のフレームワークであるHyperPを紹介します。
単一のベースレートでHyperPの計算予算をまたいだデータ転送を調整し、強力な Muon ベースラインを 6times1021$ FLOPs で1.58 タイムで達成した。
また、超球面制約から派生したMoEゲーティング機構であるSqrtGateを提案し、MoEの粒度にわたって出力RMSを保存する。
論文 参考訳(メタデータ) (2026-03-30T17:51:47Z) - Rank-Aware Spectral Bounds on Attention Logits for Stable Low-Precision Training [0.0]
変圧器における注意スコアは、低精度トレーニングにおけるオーバーフローリスクを最大で支配する2次形式である$S_ij = x_itop M x_j / sqrtd_h$である。
相互作用行列 $M = WQ WKtop$ が階数 $r ll d$ を持つとき、$max_i,j|S_ij|$ は $exp(-d22/) となる。
論文 参考訳(メタデータ) (2026-02-21T14:29:22Z) - INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - On parametric resonance in the laser action [91.3755431537592]
固体レーザーのための自己整合性半古典型マクスウェル-シュル・オーディンガー系について考察する。
対応する Poincar'e map $P$ を導入し、適切な定常状態 $Y0$ で微分 $DP(Y0)$ を考える。
論文 参考訳(メタデータ) (2022-08-22T09:43:57Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。
近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。
本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文 参考訳(メタデータ) (2022-02-17T17:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。