論文の概要: Attention as Frustrated Synchronization
- arxiv url: http://arxiv.org/abs/2606.18694v1
- Date: Wed, 17 Jun 2026 05:18:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.013931
- Title: Attention as Frustrated Synchronization
- Title(参考訳): フラストレーション同期としての注意
- Authors: Joshua Nunley,
- Abstract要約: トークン状態がトーラス上の位相であり、全値経路がハーモニクス上の1つの学習された複素結合カーネルであり、1ステップ遅れであるフラストレート同期ネットワーク(FSN)を紹介する。
複雑な位相は静的な倉本坂口フラストレーション角、符号付きハーモニクスは反発する大道成分であり、各トークンをそれに付随するトークンの後継者に結合させる遅延項は、倉本坂口結合と代数的に同じである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A network of oscillators that synchronizes perfectly computes nothing further, so an attention architecture built from synchronization must locate its computation in structured departures from agreement. We introduce the Frustrated Synchronization Network (FSN), whose token states are phases on a torus and whose entire value pathway is one learned complex coupling kernel over harmonics and a one-step delay. Each component of the kernel is a frustration in the sense of the synchronization literature. The complex phases are static Kuramoto-Sakaguchi frustration angles, the signed harmonics are repulsive Daido components, and the delay term, which couples each token to the successors of the tokens it attends to, is algebraically identical to Kuramoto-Sakaguchi coupling whose frustration angle is the data's own transition, so next-token prediction is implemented as synchronization frustrated by the data. At matched one-million-parameter and training budgets on character-level text and code, the FSN's validation loss is below a tuned RoPE-SwiGLU transformer's at every epoch measured, and the comparison survives training the baseline to convergence: every thirty-epoch enwik8 seed finishes below the transformer's converged fifty-epoch loss of 1.611, and the FSN's completed fifty-epoch runs converge to 1.5953 +/- 0.0014. A variant with every feed-forward block replaced by mean-field coupling to learned collective modes, leaving no multilayer perceptron in the stack, tracks the transformer. On natural text the unfrustrated base layer falls behind the converged transformer at every copy depth, worst on long-range copy events; the kernel reverses the deficit at every depth of four and beyond. Headline comparisons are at the one-million-parameter scale; a scale ladder is complete through four million parameters with the advantage persisting, and remaining arms are marked as in progress.
- Abstract(参考訳): 完全に同期する発振器のネットワークは、これ以上何も計算しないので、同期から構築された注意アーキテクチャは、合意から構造化された離脱においてその計算を見つける必要がある。
トークン状態がトーラス上の位相であり、全値経路がハーモニクス上の1つの学習された複素結合カーネルであり、1ステップ遅れであるフラストレート同期ネットワーク(FSN)を紹介する。
カーネルの各コンポーネントは同期文学におけるフラストレーションである。
複雑な位相は静的な倉本坂口フラストレーション角、符号付きハーモニクスは反発する大道成分であり、各トークンをそのトークンの後継と結合する遅延項は、データ自身の遷移である倉本坂口カップリングと代数的に同一であり、次トーケン予測はデータによってフラストレーションされる同期として実装される。
一致した100万パラメータと文字レベルのテキストとコードのトレーニング予算では、FSNのバリデーション損失は、測定されたすべてのエポックで調整されたRoPE-SwiGLU変換器以下であり、比較はベースラインを収束させる訓練を継続する: 30エポックのenwik8シードは、変換器の収束した50エポックの損失1.611以下で終了し、FSNの完了した50エポックは1.5953 +/- 0.0014に収束する。
全てのフィードフォワードブロックを持つ変種は、学習された集合モードに平均場結合に置き換えられ、スタックに多層パーセプトロンを残さず、トランスフォーマーを追跡する。
自然なテキストでは、非フラストレーションベースの層は、コピー深度ごとに収束したトランスフォーマーの後方に落ち、長距離コピーイベントでは最悪である。
ヘッドライン比較は100万パラメートルのスケールで行われ、スケールのはしごは400万のパラメータで完結し、利点は持続し、残りアームは進行中である。
関連論文リスト
- Discrete Autoregressive Transformer for Generative Mechanism Synthesis [0.0]
平面経路合成は、カプラ曲線が所定の軌道に一致する機構を必要とする。
前方運動学および幾何学的アライメント後のチャンファー距離と動的時間歪みを報告する。
条件付き自己回帰配列モデルとして合成を定式化する。
論文 参考訳(メタデータ) (2026-06-16T01:46:21Z) - Kuramoto Attention: Synchronizing Self-Attention on the Torus [0.0]
隠れた座標が角である自己注意層である倉本注意を導入する。
層は、ゲートコサイン類似性によりトークンをスコアし、前のフェーズ状態に参画し、注目重み付き円平均の接点成分によって各トークンを更新する。
enwiki8文字レベルの言語モデリングでは、レイヤは関数型言語モデルとして訓練される。
論文 参考訳(メタデータ) (2026-06-10T02:24:04Z) - Latent Recurrent Transformer: Architecture Exploration, Training Strategies, and Scaling Behavior [107.2098567818173]
Latent Recurrent Transformer (LRT) は自己回帰変換器の軽量化である。
LRTは、次のトークンのリカレントメモリとして、前のトークンから高レベルなソース層隠れステートを再利用する。
論文 参考訳(メタデータ) (2026-05-26T10:10:26Z) - N-vium: Mixture-of-Exits Transformer for Accelerated Exact Generation [68.47358899451255]
N-vium (N-vium) は、標準ハードウェア上での計算を部分的に並列化する変圧器である。
N-Viumは複数の深さで予測ヘッドを付加し、次のトーケン分布をこれらの出口上の学習混合物として定義する。
論文 参考訳(メタデータ) (2026-05-13T08:46:17Z) - Sub-Cubic Quantum Gate Synthesis via Stochastic Commutator Decomposition [0.0]
Commutator Synthesisは量子ゲートコンパイルフレームワークである。
これはKuperbergのサブキュビックSolovay-Kitaev指数cを1.44042付近に、ランダム化されたコンパイルのエラー調整機構を統合する。
論文 参考訳(メタデータ) (2026-05-03T20:41:21Z) - The Recurrent Transformer: Greater Effective Depth and Efficient Decoding [48.9323408950142]
Recurrent Transformerは、各レイヤがそれぞれのアクティベーションから計算されたキーと値のペアに付随する、シンプルなアーキテクチャ変更である。
このアーキテクチャは, (i) 従来のトランスフォーマーと (ii) トークン・ツー・グレッシブ・リカレント更新の両方を軽度な仮定でエミュレートできることを示す。
論文 参考訳(メタデータ) (2026-04-23T02:12:58Z) - Early-Terminable Energy-Safe Iterative Coupling for Parallel Simulation of Port-Hamiltonian Systems [1.2091218906871861]
このレターでは、ポート-ハミルトニアン部分系に対する新しいエネルギー安全で早期に決定可能な反復結合を提案する。
我々は,有限内接予算に対して,連結マクロステップの離散的通過性を証明した拡張記憶不等式を証明した。
内部予算が増加するにつれて、分割された更新はモノリシックな離散時間更新に収束する。
論文 参考訳(メタデータ) (2026-03-17T11:59:30Z) - ATTS: Asynchronous Test-Time Scaling via Conformal Prediction [112.54016379556073]
大規模な言語モデル(LLM)は、テスト時のスケーリングの恩恵を受けるが、しばしば高い推論遅延によって妨げられる。
統計的に保証された適応スケーリングフレームワークであるATTS(Asynchronous Test-Time Scaling)を紹介する。
ATTSは、テストタイムのスケーリングにおいて最大56.7倍のスピードアップと4.14倍のスループット向上を実現している。
論文 参考訳(メタデータ) (2025-09-18T16:55:09Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。