論文の概要: Keyless Attention: Value-Space Routing and Value-Only Caching for Efficient Transformers
- arxiv url: http://arxiv.org/abs/2606.21848v1
- Date: Sat, 20 Jun 2026 03:12:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 02:41:06.525357
- Title: Keyless Attention: Value-Space Routing and Value-Only Caching for Efficient Transformers
- Title(参考訳): キーレス注意:効率的なトランスフォーマーのためのバリュースペースルーティングとバリューオンリーキャッシング
- Authors: Xin Gao,
- Abstract要約: Keyless Attentionはクエリと値のみで動作する。
これによりバリューオンリーキャッシュが発生し、KVキャッシュのメモリとアクセスオーバーヘッドを標準よりも正確に50%削減する。
- 参考スコア(独自算出の注目度): 10.881775240453102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Keyless Attention, an attention mechanism that eliminates the key projection entirely, operating over queries and values only. This yields a Value-Only Cache that reduces KV cache memory and access overhead by exactly 50% over standard attention, while matching or exceeding standard attention's decode throughput. Beyond efficiency, we introduce Depth-$m$ Attention Factorization: standard attention computes a depth-2 factorization of the attention bilinear form, while Keyless Attention realizes a depth-$m$ instance of this family. At m=3, Keyless Attention matches the projection matrix count of standard attention via a value-space routing matrix that replaces the key projection and introduces a coupling between routing and retrieval. Experiments across five models and four architectures (GPT-2 280M, GPT-2 557M, Pythia 410M, Qwen2 1.5B, and Llama 3.2 1B) show that Keyless Attention matches or outperforms standard QKV attention on perplexity in 4 out of 5 models. On downstream zero-shot evaluation (GPT-2 557M), Keyless Attention outperforms on 4 out of 5 commonsense reasoning benchmarks, while achieving 50% KV cache reduction throughout.
- Abstract(参考訳): 我々はキーレス・アテンション(Keyless Attention)という,キープロジェクションを完全に排除し,クエリと値のみを操作するアテンション機構を提案する。
これにより、標準的な注意力よりもKVキャッシュメモリとアクセスオーバーヘッドを正確に50%削減し、標準の注意力のデコードスループットをマッチまたは超過するバリューオンリーキャッシュが得られる。
標準的なアテンションは、アテンションバイリニア形式の深度2因子化を計算し、キーレスアテンションは、このファミリーの深度m$インスタンスを実現する。
m=3のキーレスアテンションは、キープロジェクションを置き換え、ルーティングと検索の結合を導入する値空間のルーティングマトリックスを介して、標準アテンションのプロジェクション行列数と一致する。
5つのモデルと4つのアーキテクチャ(GPT-2 280M、GPT-2 557M、Pythia 410M、Qwen2 1.5B、Llama 3.2 1B)にわたる実験では、キーレスアテンションは5つのモデルのうち4つのうち4つにおいて、標準的なQKVの注意力と一致し、より優れていた。
ダウンストリームゼロショット評価(GPT-2 557M)では、キーレスアテンションは5つのコモンセンス推論ベンチマークのうち4つで、50%のKVキャッシュ削減を実現している。
関連論文リスト
- Linear Predictability of Attention Heads in Large Language Models [0.5833117322405447]
事前学習したトランスフォーマーは,頭部間線形構造が広範に存在することを示す。
我々は、参照ヘッドKV状態のみをキャッシュし、残りのヘッドをオンザフライで再構築することでこれを活用します。
論文 参考訳(メタデータ) (2026-03-04T09:04:03Z) - KQ-SVD: Compressing the KV Cache with Provable Guarantees on Attention Fidelity [6.542188603141656]
キーバリューキャッシュは、大きな言語モデルの効率の中心である。
シーケンスの長さとバッチサイズが大きくなると、キャッシュは大きなメモリボトルネックとなる。
我々は,注目行列の最適低ランク分解を直接行う,単純で効率的なKQ-SVDを提案する。
論文 参考訳(メタデータ) (2025-12-05T17:51:10Z) - Quantize What Counts: More for Keys, Less for Values [63.51476878610841]
大規模言語モデル(LLM)は、キーバリュー(KV)キャッシュに支配される推論時のメモリボトルネックに悩まされる。
本稿ではトランスフォーマーモデルの内在幾何学における混合精度KV量子化を固定する2つの定理を提案する。
論文 参考訳(メタデータ) (2025-02-20T22:24:27Z) - AttentionPredictor: Temporal Patterns Matter for KV Cache Compression [64.75459635661562]
我々は,KVキャッシュ圧縮とクリティカルトークン識別のための注意パターンを直接予測する,学習に基づく最初の手法であるAttentionPredictorを提案する。
AttentionPredictorは、注意スコアを正確に予測し、無視可能なメモリを消費する統一予測モデルを共有する。
注意情報の大半を保持することで、AttentionPredictorは、キャッシュオフロードシナリオで13$times$KVキャッシュ圧縮と5.6$times$スピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - Eigen Attention: Attention in Low-Rank Space for KV Cache Compression [9.080678336379528]
我々は,低ランク空間における注意操作を行うEigen Attentionを提案し,KVキャッシュメモリのオーバーヘッドを低減する。
その結果,Eigen AttentionはKVキャッシュサイズを最大40%削減し,注目動作遅延を最大60%低減し,性能の低下を最小化できることがわかった。
論文 参考訳(メタデータ) (2024-08-10T22:47:12Z) - A Simple and Effective $L_2$ Norm-Based Strategy for KV Cache Compression [13.981807478365452]
キーバリューキャッシュサイズを減らすための既存のアプローチは、圧縮戦略を学ぶためのモデルを微調整するか、シーケンス長を減らすためにアテンションスコアを利用するかのいずれかである。
キャッシュされたKVペアに対して、$L$とアテンションスコアとの間に明らかな相関関係が見られ、キー埋め込みの低い$L$がデコード時に高いアテンションスコアをもたらす。
実験の結果,この単純な手法により,言語モデリングやニードル・イン・ア・ヘイスタックタスクでは50%,パスキー検索タスクでは90%,精度を損なうことなく,KVキャッシュサイズを50%削減できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T11:35:16Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。