論文の概要: Blurry Window Attention
- arxiv url: http://arxiv.org/abs/2606.09862v1
- Date: Sun, 31 May 2026 17:43:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:57.964558
- Title: Blurry Window Attention
- Title(参考訳): ぼやけた窓の注意
- Authors: Axel Laborieux, Christos Sourmpis, Juan Gabriel Kostelec, Qinghai Guo,
- Abstract要約: 本稿では,SSMにインスパイアされたABC方式Blurry Window Attention (BLA)を紹介する。
BLAはディリクレのカーネルの解像度に依存するスライディングウインドウ・アテンション(SWA)の一般化と解釈できる。
BLAの状態効率はSWAよりも8$times$良いことを示し、一般的な線形アテンションモデルと競合することを示した。
- 参考スコア(独自算出の注目度): 14.486130218956612
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The Softmax Attention operation in Transformer language models has a quadratic complexity in the sequence length and a growing state size in the form of KV cache, which becomes a bottleneck in long context scenarios. To overcome this limitation, alternative architectures with linear complexity and finite state size have been introduced, such as State-Space Models (SSMs), Linear Attention (LA), and Attention with Bounded-memory Control (ABC). Though linear models achieve similar language perplexity as Transformers, they are still behind in tasks which require retrieval or recall of specific information. In this work, we introduce Blurry Window Attention (BLA) a novel ABC method inspired by SSMs. BLA stores a frequency window from which a blurry KV history is reconstructed via interpolation using Dirichlet kernels. BLA can be understood as a generalization of Sliding Window Attention (SWA) depending on the Dirichlet kernels resolution or as a special case of the Gated Slot Attention (GSA), where the decay factor is implemented with Dirichlet kernels. We describe in details the theory and efficient implementation of BLA. On the Multi-Query Associate Recall (MQAR) synthetic task, we show that the state efficiency of BLA is 8$\times$ better than SWA and is competitive with popular linear attention models, and in the RegBench synthetic task, only BLA and SWA improve their performance as the state size grows among the linear models we tested.
- Abstract(参考訳): Transformer言語モデルにおけるSoftmax Attention操作は、シーケンス長の2次複雑さとKVキャッシュの形の状態サイズが増大し、長いコンテキストシナリオではボトルネックとなる。
この制限を克服するために、ステートスペースモデル(SSM)、線形注意(LA)、境界メモリ制御(ABC)など、線形複雑性と有限状態サイズを持つ代替アーキテクチャが導入されている。
線形モデルはトランスフォーマーと同様の言語パープレキシティを実現するが、特定の情報の検索やリコールを必要とするタスクは依然として遅れている。
本研究では,Blurry Window Attention (BLA) という,SSMにインスパイアされたABC手法を紹介する。
BLAは、ディリクレカーネルを用いた補間により、ぼやけたKV履歴を再構成する周波数窓を格納する。
BLA はディリクレ核の分解度に依存するスライディングウィンドウ注意(SWA)の一般化や、ディリクレ核で崩壊係数を実装した Gated Slot Attention (GSA) の特殊な場合と解釈できる。
BLAの理論と効率的な実装について詳述する。
マルチクエリ・アソシエイト・リコール(MQAR)合成タスクでは、BLAの状態効率がSWAよりも8$\times$良いことを示し、一般的な線形アテンションモデルと競合することを示し、RegBench合成タスクでは、テストした線形モデルの中で状態サイズが大きくなるにつれて、BLAとSWAのみが性能を改善する。
関連論文リスト
- COREY: Entropy-Guided Runtime Chunk Scheduling for Selective Scan Kernels [11.316541559874864]
プロトタイプスケジューラは、固定幅ヒストグラムを用いて推定したアクティベーションエントロピーを、チャンクサイズ選択のランタイム信号として利用する。
COREYはConcept and Feasibilityのコントリビューションとして位置づけられている。
この作業には、Tier 2aとTier 2bを接続する完全なエンドツーエンド実行が含まれていない。
論文 参考訳(メタデータ) (2026-04-12T12:07:48Z) - Neural Attention Search Linear: Towards Adaptive Token-Level Hybrid Attention Models [7.961563754693873]
異なるトークンに対して同一レイヤ内での線形アテンションとソフトマックスアテンションの両方を適用可能なフレームワークを提案する。
NAtS-Lは、トークンが線形アテンションモデル(短期的な影響しか持たないトークン)で処理できるかどうかを自動的に決定する。
トークン間の最適Gated DeltaNetとソフトマックスアテンションの組み合わせを探索することにより、NAtS-Lは強力で効率的なトークンレベルのハイブリッドアーキテクチャを提供することを示す。
論文 参考訳(メタデータ) (2026-02-03T16:02:50Z) - LINA: Linear Autoregressive Image Generative Models with Continuous Tokens [56.80443965097921]
連続トークンを持つ自己回帰モデルは、特にテキスト・トゥ・イメージ(T2I)合成において、視覚生成に有望なパラダイムを形成する。
このフレームワーク内での計算効率のよい線形アテンションの設計法について検討する。
LINAは、線形注意に基づくシンプルで計算効率の良いT2Iモデルであり、ユーザ命令から高忠実度1024x1024画像を生成することができる。
論文 参考訳(メタデータ) (2026-01-30T06:44:33Z) - SCOUT: Toward Sub-Quadratic Attention via Segment Compression for Optimized Utility in Transformers [15.142822497807236]
固定サイズセグメント内でトークンを局所的に圧縮し,これらの圧縮表現にのみ注目するハイブリッドアーキテクチャであるSCOUTを提案する。
SCOUTは、計算コストとメモリコストを大幅に削減しつつ、完全な注意の表現力を保っている。
SCOUTの計算とメモリ効率を解析し、長文言語モデリングおよび推論タスクで経験的に評価する。
論文 参考訳(メタデータ) (2025-08-31T17:08:33Z) - Scaling Linear Attention with Sparse State Expansion [62.749291436866606]
トランスフォーマーアーキテクチャは、2次計算と線形メモリ成長による長期コンテキストシナリオに苦慮している。
より効率的な文脈圧縮を実現するための2つの重要な革新を提案する。
まず、情報分類として状態更新を概念化し、線形注意のための行スパース更新定式化を導入する。
次に、スパースフレームワーク内にスパース状態拡張(SSE)を示し、コンテキスト状態を複数のパーティションに拡張する。
論文 参考訳(メタデータ) (2025-07-22T13:27:31Z) - Tensor Product Attention Is All You Need [61.3442269053374]
プロダクトアテンション(TPA)は、テンソル分解を使用してクエリ、キー、値をコンパクトに表現する新しいアテンションメカニズムである。
TPAは、メモリ効率とともに改善されたモデル品質を実現する。
TPAに基づいて,シーケンスモデリングのための新しいモデルアーキテクチャであるProducT ATTion Transformer (T6)を紹介する。
論文 参考訳(メタデータ) (2025-01-11T03:37:10Z) - Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。
我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-28T19:28:27Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z) - SAC: Accelerating and Structuring Self-Attention via Sparse Adaptive
Connection [51.376723069962]
本稿では,スパース適応接続(Sparse Adaptive Connection)を提案する。
SACでは、入力シーケンスをグラフとみなし、リンクノード間のアテンション操作を行う。
我々は,SACが最先端モデルと競合する一方で,メモリコストを大幅に削減することを示した。
論文 参考訳(メタデータ) (2020-03-22T07:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。