論文の概要: SpotAttention: Plug-In Block-Sparse Routing for Pretrained Long-Context Transformers
- arxiv url: http://arxiv.org/abs/2606.22874v1
- Date: Mon, 22 Jun 2026 05:39:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 03:56:04.751864
- Title: SpotAttention: Plug-In Block-Sparse Routing for Pretrained Long-Context Transformers
- Title(参考訳): SpotAttention: 制約付き長期変圧器用プラグインブロックスパースルーティング
- Authors: Huzama Ahmad, Se-Young Yun,
- Abstract要約: SpotAttentionは、最大128Kトークンのコンテキストで、トレーニングの長さの8倍の精度で一致します。
セレクタのKキャッシュをINT4またはFP4マイクロスケールに量子化すると、正確さなしで3.5倍縮小する。
- 参考スコア(独自算出の注目度): 38.620985085871034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long contexts have become standard in pretrained LLMs, yet they remain expensive to run: prefill compute grows quadratically with sequence length, and every decode step re-reads a key-value cache that grows linearly with it. Sparse attention cuts these costs by attending only to a relevant subset of past tokens, but selecting that subset is itself expensive. We present SpotAttention, a lightweight selector that attaches to a frozen pretrained transformer and learns by KL distillation to estimate its attention distribution. The selector picks the top-K keys each query attends to, and because its estimate is a calibrated distribution, a dual top-p rule reads the per-query, per-layer budget directly from it. Across Qwen3 (dense, 4B-32B) and Qwen3.5 (hybrid linear/full attention, 4B-9B), SpotAttention matches dense accuracy at contexts up to 128K tokens, eight times the training length. Decode at L=128K runs 3.9x faster than FlashAttention and 1.8x faster than Twilight, the strongest training-free baseline. Quantizing the selector's K-cache to INT4 or FP4 microscale shrinks it 3.5x at no accuracy cost.
- Abstract(参考訳): 事前訓練されたLLMでは長いコンテキストが標準になっているが、実行にはコストがかかる。プリフィル計算はシーケンシャルな長さで2次的に成長し、各デコードステップはキー値キャッシュを再読み取りし、それとともに線形に成長する。
スパースアテンションは、過去のトークンの関連するサブセットにのみ参加することでこれらのコストを削減するが、そのサブセットの選択自体が高価である。
本稿では, 冷凍予混合変圧器に装着し, KL蒸留により注目分布を推定する軽量セレクタであるSpotAttentionについて述べる。
セレクタは、クエリ毎にトップKキーを選択し、その推定値がキャリブレーションされた分布であるため、二重のトップpルールは、クエリ毎に直接、層ごとの予算を読み取る。
Qwen3 (dense, 4B-32B) と Qwen3.5 (hybrid linear/full attention, 4B-9B) にまたがって、SpotAttention は128Kトークンまでのコンテキストで、トレーニング長の8倍の精度で精度が一致する。
L=128KのデコードはFlashAttentionより3.9倍、Twilightより1.8倍高速である。
セレクタのKキャッシュをINT4またはFP4マイクロスケールに量子化すると、正確さなしで3.5倍縮小する。
関連論文リスト
- SparDA: Sparse Decoupled Attention for Efficient Long-Context LLM Inference [14.525255398490854]
疎結合なスパークアテンションアーキテクチャであるSparDAを提案する。
Forecastは次のレイヤに必要なKVブロックを予測し、ルックアヘッドの選択を可能にする。
SparDAはスパース事前の8Bモデルの精度をわずかに向上させる。
論文 参考訳(メタデータ) (2026-06-03T06:42:05Z) - Don't Read Everything: A Curvature-Conditioned Query for Linear Attention [42.02790959450039]
リニアアテンションは、繰り返し発生する高速な状態を維持することでソフトマックスアテンションの二次コストを低減する。
既存のリメディエーションは、ゲーティング、デルタ更新、カーネル機能マップを通じて、メモリの書き込み側に作用する。
我々は、より安価なクエリの読み取り時間縮約を構築するために、Softmaxの幾何学の特定の部分を借りる。
このメカニズムを Curvature-Conditioned Query (CCQ) と呼ぶ。
S-NIAHはトレーニングコンテキストの前後でのパープレキシティ、ゼロショットダウンストリーム精度、S-NIAH検索、4Kから20Kまでの長さのパープレキシティ、Longを改善する
論文 参考訳(メタデータ) (2026-05-31T15:25:42Z) - NestedKV: Nested Memory Routing for Long-Context KV Cache Compression [35.62789874560166]
NestedKVは、Nested LearningのContinuum Memory SystemにインスパイアされたキーのみのKVキャッシュ圧縮方式である。
マルチタイムスケールのコサイン異常によってトークンをスコアし、その結果のランキングとトレーニング不要な外部学習者を組み合わせる。
論文 参考訳(メタデータ) (2026-05-26T08:14:39Z) - Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps [12.944531570933854]
大規模言語モデルにおける長文推論は、注意の2次コストによってボトルネックとなる。
フルアテンション LLM は本質的にスパースであり,最小限の適応しか持たない高度スパースモデルに変換可能であることを示す。
RTPurboは、モデル固有のスパーシリティを活用することで、わずか数百のトレーニングステップでスパーシフィケーションを実現する。
論文 参考訳(メタデータ) (2026-05-16T10:51:58Z) - Efficient Low Rank Attention for Long-Context Inference in Large Language Models [41.24530756499533]
低ランククエリとキーアテンション(LRQK)は、プリフィル段階で、完全精度クエリとキー行列をコンパクトなランク-(r)要素に分解するフレームワークである。
トップ(k)トークンと、最近のトークンの小さな固定セットだけを選択することで、LRQKは、完全に精度の低いKVペアだけを転送するヒットアンドミス機構を備えた混合GPU-CPUキャッシュを使用する。
論文 参考訳(メタデータ) (2025-10-25T11:43:27Z) - Spotlight Attention: Towards Efficient LLM Generation via Non-linear Hashing-based KV Cache Retrieval [67.21678698740267]
本研究では,クエリやキーの埋め込み分布を最適化するために,非線形ハッシュ関数を利用する新しい手法であるSpotlight Attentionを紹介する。
また、Bradley-Terryランキングに基づく損失を利用して、軽量で安定したトレーニングフレームワークを開発する。
論文 参考訳(メタデータ) (2025-08-27T10:11:27Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。