論文の概要: How Much Dense Attention is Necessary? Oracle-Guided Sparse Prefill for Full/GQA Layers in Hybrid Long-Context Models
- arxiv url: http://arxiv.org/abs/2606.07703v1
- Date: Fri, 05 Jun 2026 09:13:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.294337
- Title: How Much Dense Attention is Necessary? Oracle-Guided Sparse Prefill for Full/GQA Layers in Hybrid Long-Context Models
- Title(参考訳): どのくらいのディエンス注意が必要か? ハイブリッドロングコンテキストモデルにおける完全/GQA層のためのOracleガイドによるスパース準備
- Authors: Hongxing Wang, Harenome Razanajato, Zhen Zhang, Yujie Yuan, Hongsheng Liu,
- Abstract要約: 既存のGQAチェックポイントに注目質量トップkオラクルを導入する。
集中した注意を計算し、平均的なトークンサポートを選択し、そのサポートにのみ注意を計算します。
オラクルは診断基準であり、デプロイ可能なアクセラレータではない。
- 参考スコア(独自算出の注目度): 7.967701520699614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context prefill remains expensive because full/GQA layers still score the historical sequence, even in hybrid models with local, sparse, linear, or recurrent components. We study how much dense attention is needed to preserve task-level behavior under explicit support granularity and top-k budgets. We introduce an attention-mass top-k oracle for existing GQA checkpoints: for each layer and query position, it computes dense attention, selects head-averaged token support, and recomputes attention only on that support. The oracle is a diagnostic reference, not a deployable accelerator, and separates sparse-budget feasibility from indexer error and runtime realization effects. On Qwen-family retrieval-heavy evaluations, the longest per-query oracle rows stay within 1 point of dense, and a Qwen3.5-9B RULER-style sweep from 4K to 100K stays within 0.48 points. Guided by the oracle, we derive a head-collapsed auxiliary indexer trained by KL distillation from dense attention-mass distributions while keeping the backbone frozen. With separately distilled Qwen3.5-0.8B and Qwen3.5-9B indexers, the reported 16K/32K validation macro gaps are +2.04 and +1.13 points, treated as quality preservation rather than improvement; fused selection-block-shared support can introduce a larger realization gap. Preliminary single-card TTFT measurements show distilled-indexer sparse serving speedups of 1.71x for Qwen3.5-0.8B on NPU and 1.93x for Qwen3.5-9B on GPU against its dense FlashAttention-2 baseline. Additional random-init stress rows reach 3.44x, indicating sparse-runtime headroom but not validated output quality. This first release separates oracle feasibility, distilled-indexer quality, and runtime headroom, leaving a fully matched quality-latency frontier to future work.
- Abstract(参考訳): ローカル、スパース、リニア、リカレントコンポーネントを備えたハイブリッドモデルであっても、フル/GQA層が歴史的シーケンスをスコア付けしているため、ロングコンテクストのプリフィルは高価である。
本研究は,タスクレベルの動作を明示的なサポート粒度とトップk予算の下で維持するために,どの程度の注意が必要であるかを検討する。
既存のGQAチェックポイントに対する注目質量トップkオラクルを導入し、各レイヤとクエリ位置について、集中した注意を計算し、平均的なトークンサポートを選択し、そのサポートにのみ注意を計算します。
オラクルは、デプロイ可能なアクセラレータではなく、診断基準であり、インデクサエラーと実行時実現効果からスパース予算の実現性を分離する。
Qwen- family search-heavy Evaluationsでは、最も長いクエリごとのオラクル列は1ポイント以内に留まり、4Kから100KまでのQwen3.5-9B RULERスタイルのスイープは0.48ポイントに留まっている。
KL蒸留法で訓練した頭部崩壊型補助指標器は,背骨を凍結したまま,高密度の注目質量分布から導出する。
Qwen3.5-0.8BとQwen3.5-9Bを別々に蒸留し、報告された16K/32Kバリデーションマクロギャップは+2.04および+1.13ポイントであり、改善ではなく品質保存として扱われる。
予備的なシングルカードTTFT測定では、NPU上のQwen3.5-0.8Bで1.71x、GPU上のQwen3.5-9Bで1.93x、高密度のFlashAttention-2ベースラインに対して蒸留インデクサスパースが機能することが示された。
追加のランダム入力ストレス列は3.44倍に達し、スパースランタイムのヘッドルームを示すが、出力品質は検証されていない。
この最初のリリースは、オラクルの実現性、蒸留インデクサの品質、ランタイムのヘッドルームを分離し、完全にマッチした品質とレイテンシのフロンティアを将来の作業に残している。
関連論文リスト
- HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention [62.79085204939384]
HISA (Hierarchical Indexed Sparse Attention) は、平らなトークンスキャンから2段階の階層的な手順に検索パスを書き換える。
カーネルレベルのベンチマークでは、HISAは64Kコンテキストでの高速化を実現している。
論文 参考訳(メタデータ) (2026-03-30T13:59:51Z) - VSPrefill: Vertical-Slash Sparse Attention with Lightweight Indexing for Long-Context Prefilling [0.0]
既存のスパースアテンション手法は、コンテキスト適応性、オーバーヘッドのサンプリング、微調整コストのトレードオフに直面している。
注意分布に垂直スラッシュ構造パターンを用いる軽量なトレーニング機構であるVSPrefillを提案する。
VSPrefillは注意点の98.35%を保存し、コンテキスト長128kで平均4.95倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2026-03-03T09:24:58Z) - CLAA: Cross-Layer Attention Aggregation for Accelerating LLM Prefill [4.440373965918973]
我々はAnswer-Informed Oracleを紹介します。これは、生成した回答からプロンプトへの注意を計測することで、地道なトークンの重要性を定義します。
このオラクルは、既存のオラクルが層間で高いばらつきを示すことを明らかにしている。ランク付けは特定の層で急激な分解が可能であり、エンドツーエンドのベンチマークでは見えない障害モードである。
我々はこれをCLAA(Cross-Layer Attention Aggregation)として実装し、全KVキャッシュのベースラインと比較して、上界とのギャップを埋め、TTFT(Time-to-First-Token)を最大39%削減する。
論文 参考訳(メタデータ) (2026-02-17T22:08:16Z) - Near-Oracle KV Selection via Pre-hoc Sparsity for Long-Context Inference [54.467557491325046]
本稿では,注意スコアの前にKVエントリを選択し,明示的な精度制御を行うプリホックスパシティ(PrHS)を提案する。
PrHSは検索オーバーヘッドを90%以上削減し、HShareよりも3倍高い精度で検索できる。
これはLongBenchの平均劣化率を1%以下に抑え、FLOPを約15%減らし、9.9倍のレイテンシと2.8倍のスループットを得る。
論文 参考訳(メタデータ) (2026-02-09T07:05:23Z) - LycheeDecode: Accelerating Long-Context LLM Inference via Hybrid-Head Sparse Decoding [27.856769454125573]
LLM(Long-context Large Language Model)は、デコード中に急速に拡大するキーバリューキャッシュという、重要なボトルネックを露呈する。
我々は,微細なハイブリッドヘッドアテンション機構を中心とした効率的な復号法であるLycheeDecodeを提案する。
我々はLycheeDecodeが、フルアテンションベースラインに匹敵する、時には超越した生成品質を達成することを実証した。
論文 参考訳(メタデータ) (2026-02-04T13:34:12Z) - Kascade: A Practical Sparse Attention Method for Long-Context LLM Inference [9.469995152350899]
我々は、既知の観測値を活用する訓練不要なスパースアテンション手法であるカスケードを提案する。
Kascadeは、小さなアンカー層で正確なTop-kインデックスを計算し、それらのインデックスを中間再利用層で再利用する。
Kascadeは、H100 GPU上のFlashAttention-3ベースラインに対して、デコードアテンションの最大4.1倍、プリフィルアテンションの2.2倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-12-18T10:37:14Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - HyperAttention: Long-context Attention in Near-Linear Time [78.33061530066185]
本稿では,長期的文脈の複雑さの増大に伴う計算課題に対処するため,HyperAttentionという近似的な注意機構を提案する。
実証的には、大規模なエントリを特定するためにLocality Sensitive Hashing(LSH)を使用して、HyperAttentionは既存のメソッドよりも優れています。
各種長文長データセットにおけるHyperAttentionの実証的性能を検証した。
論文 参考訳(メタデータ) (2023-10-09T17:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。