論文の概要: Gaussian Mixture Attention: Linear-Time Sequence Mixing via Probabilistic Latent Routing
- arxiv url: http://arxiv.org/abs/2606.18283v1
- Date: Tue, 09 Jun 2026 23:35:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.787245
- Title: Gaussian Mixture Attention: Linear-Time Sequence Mixing via Probabilistic Latent Routing
- Title(参考訳): ガウス混合注意:確率潜在経路による線形時間列混合
- Authors: Yongchao Huang, Hassan Raza,
- Abstract要約: GMAは、明示的なペアワイズクエリ-キー比較を$K$学習したガウス混合コンポーネントによるルーティングに置き換える。
我々は、GMAの双方向および因果変異を定式化し、ガウス混合成分のエンドツーエンドの微分可能なパラメータ化を提供する。
我々は、その責任変調構造、制約付き非負の低ランク親和性解釈、局所的なルーティング安定性を解析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dense token-to-token interaction pattern of standard dot-product attention remains a central bottleneck in scaling Transformer architectures to long contexts. We introduce \textbf{Gaussian Mixture Attention (GMA)}, a probabilistic attention-style sequence mixer that replaces explicit pairwise query--key comparison with routing through $K$ learned Gaussian mixture components. Queries and keys are mapped to posterior \textit{responsibility} vectors over a shared latent routing space; their overlap defines an implicit responsibility-space affinity, while values are written into and read from a $K$-slot latent memory. By exploiting the associativity of matrix multiplication, GMA avoids materializing the induced $N\times N$ affinity matrix and instead uses two responsibility matrices whose dominant activation storage scales as $\mathcal{O}(NK)$ rather than $\mathcal{O}(N^2)$ for fixed $K$. We formulate bidirectional and causal variants of GMA, provide an end-to-end differentiable parameterization of the Gaussian mixture components, and analyze its responsibility-modulated gradient structure, constrained non-negative low-rank affinity interpretation, and local routing stability. Empirically, GMA exhibits the intended fixed-$K$ linear memory scaling and is competitive with attention-style baselines on long-context classification, while causal GMA improves over tested linear/random-feature attention variants on WikiText-103 but remains behind optimized causal SDPA and Mamba in the current implementation. Analysis of learned responsibilities further shows broad component usage and moderate alignment with surface-form token categories, supporting GMA as a probabilistic, interpretable, fixed-$K$ linear-time attention-style alternative rather than a universal replacement for optimized softmax attention or state-space models.
- Abstract(参考訳): 標準的なドット・プロダクト・アテンションの密集したトークン・ツー・トークンの相互作用パターンは、トランスフォーマーアーキテクチャを長いコンテキストに拡張する上で、依然として中心的なボトルネックとなっている。
本稿では,探索型ガウシアン混合成分のルーティングによるクエリキー比較を明示的に置き換えた確率的アテンションスタイルのシーケンスミキサである‘textbf{Gaussian Mixture Attention(GMA)’を紹介する。
クエリとキーは共有潜在ルーティング空間上の後続の \textit{responsibility} ベクトルにマップされます。
行列乗算の連想性を利用することにより、GMAは誘導された$N\times N$アフィニティ行列の実体化を避け、代わりに固定$K$に対して$\mathcal{O}(NK)$ではなく$\mathcal{O}(N^2)$として支配的なアクティベーションストレージスケールを持つ2つの責任行列を使用する。
我々は、GMAの双方向および因果変異を定式化し、ガウス混合成分のエンドツーエンドの微分可能なパラメータ化を提供し、その責任変調勾配構造、制約付き非負の低ランク親和性解釈、局所ルーティング安定性を解析する。
実証的には、GMAは意図された固定価格のリニアメモリスケーリングを示し、長文分類における注意スタイルのベースラインと競合する一方で、WikiText-103でテストされたリニア/ランダムなアテンションバリアントよりも改善されているが、現在の実装では最適化されたSDPAとMambaの背後に残っている。
学習責任の分析はさらに、GMAを最適化されたソフトマックスアテンションや状態空間モデルに対する普遍的な置き換えではなく、確率的、解釈可能、固定的なK$線形時間アテンションスタイルの代替としてサポートする、表面形状のトークンカテゴリに対する幅広いコンポーネントの使用と適度なアライメントを示している。
関連論文リスト
- LimiX-2M: Mitigating Low-Rank Collapse and Attention Bottlenecks in Tabular Foundation Models [56.999481798138625]
LimiX-2Mは2Mパラメータモデルであり、広く使われているベンチマークでTabPFN-v2とTabICLのベースラインを上回っている。
本稿では,強力なタブラル基礎モデル(TFM)のための統一トークン化・ルートフレームワークを提案する。
その結果、TFMにおける精度-効率トレードオフを改善するキーレバーとして、バリューアウェアトークン化とリードアウト整列ルーティングが強調された。
論文 参考訳(メタデータ) (2026-06-03T06:07:33Z) - PaMM: Periodic Motif Memory for Atomistic Models with an Explicit Local-Structure Interface [0.0]
本稿では,UMA eSCN-MDエッジエンコーダを明示的なペアとトリプルトルックアップ機能で拡張する周期的モチーフメモリPaMMを紹介する。
一致したUMA-S OMAT設定でPaMMを評価し、明確なモチーフメモリが一定の中間トレーニング予算で役立つかどうかという狭い問題に焦点をあてる。
論文 参考訳(メタデータ) (2026-05-13T10:11:27Z) - Projection-Free Transformers via Gaussian Kernel Attention [0.4899818550820574]
変換器における自己注意は、通常$mathrmsoftmax(QKtop/sqrtd)V$として実装され、$Q=XW_Q$, $K=XW_K$, $V=XW_V$は入力された$X$の線形射影を学習する。
ドット積注意のドロップイン置換である textbfGaussian Kernel Attention (GKA) を導入する。
論文 参考訳(メタデータ) (2026-05-04T01:57:59Z) - S2MAM: Semi-supervised Meta Additive Model for Robust Estimation and Variable Selection [37.9993096742594]
本稿では,新しい半スーパービジョンメタ付加モデル(S$2$MAM)を提案する。
情報変数を自動的に識別し、類似度行列を更新し、解釈可能な予測を同時に達成するバイレベル最適化方式に基づく。
4つの実世界のデータセットと12つの実世界のデータセットにまたがる実験的な評価は、様々なレベルの汚職のカテゴリを持ち、提案手法の堅牢性と解釈可能性を検証する。
論文 参考訳(メタデータ) (2026-04-21T04:27:12Z) - On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer [10.976013033990448]
平均正規化作用素ノルムの族は、層ワイズ可能性を認め、幅非依存な滑らかさ境界を得る。
また、textrmMuonは、スムーズネス定数が$mathcalO(qrtw)最悪のケース成長に悩まされるのに対し、qmean$に正規化された新しい行の族は、幅に依存しない境界を達成できることを示す。
論文 参考訳(メタデータ) (2026-03-10T17:49:19Z) - Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。