論文の概要: From Rigid to Dynamic: Entropy-Guided Adaptive Inference for Long-Context LLMs
- arxiv url: http://arxiv.org/abs/2606.09508v1
- Date: Mon, 08 Jun 2026 14:02:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.169367
- Title: From Rigid to Dynamic: Entropy-Guided Adaptive Inference for Long-Context LLMs
- Title(参考訳): リジッドからダイナミックへ:長期LLMのためのエントロピー誘導適応推論
- Authors: Zhanchao Xu, Haoyang Li, Qingfa Xiao, Fei Teng, Chen Jason Zhang, Lei Chen, Qing Li,
- Abstract要約: EntropyInferは、注意エントロピーを使用して、プリフィル中に個々の頭とセグメントの粒度で計算を適応的に割り当てる、トレーニング不要のフレームワークである。
Llama、Qwen、openPanguモデルシリーズの実験では、EntropyInferはKV Snap、AdaKV、CritiPrefillといったベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 18.375108449567172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing sparse attention and KV cache compression methods for long-context LLM inference typically apply fixed sparsity patterns or uniform budgets across all attention heads, overlooking the substantial variation in attention behavior among heads and contexts. We observe two distinct entropy patterns among attention heads: Rigid Heads, whose entropy stays near zero across input segments, and Dynamic Heads, whose entropy fluctuates significantly. Crucially, the distribution of these types is context-dependent and cannot be predetermined offline. We therefore propose EntropyInfer, a training-free framework that uses attention entropy to adaptively allocate compute at the granularity of individual heads and segments during prefilling. For decoding, we introduce a latent KV cache compression scheme that leverages generated output tokens, rather than prefill tokens alone, to identify and retain the most critical cache entries. Extensive experiments on Llama, Qwen and openPangu model series show that EntropyInfer consistently outperforms baselines including SnapKV, AdaKV, and CritiPrefill, achieving up to 2.39$\times$ end-to-end speedup beyond 100k tokens with minimal quality degradation compared to full attention. The code is released in https://github.com/SHA-4096/EntropyInfer.
- Abstract(参考訳): 長文LLM推論のための既存のスパースアテンションとKVキャッシュ圧縮手法は、通常、すべてのアテンションヘッドに固定されたスパーシティパターンや均一な予算を適用し、頭とコンテキスト間の注意行動のかなりのばらつきを見越す。
本研究では,入力セグメント間のエントロピーが0付近に留まるRigid Headsと,エントロピーが著しく変動するDynamic Headsの2つの異なるエントロピーパターンを観察した。
重要なことは、これらのタイプの分布は文脈依存であり、所定のオフラインでは不可能である。
そこで本研究では、注意エントロピーを用いて、プリフィル中に個々の頭やセグメントの粒度を適応的に割り当てる訓練不要のフレームワークであるEntropyInferを提案する。
復号化のために、最も重要なキャッシュエントリを特定し、保持するために、トークンのみをプリフィルするのではなく、生成された出力トークンを利用する潜在KVキャッシュ圧縮スキームを導入する。
Llama、Qwen、openPanguモデルシリーズの大規模な実験により、EntropyInferはSnapKV、AdaKV、CritiPrefillなどのベースラインを一貫して上回り、100k以上のトークンを最大2.39$\times$エンドツーエンドのスピードアップを達成する。
コードはhttps://github.com/SHA-4096/EntropyInferで公開されている。
関連論文リスト
- EntropyCache: Decoded Token Entropy Guided KV Caching for Diffusion Language Models [8.323540970510809]
本稿では,新たに復号されたトークン分布の最大エントロピーを,いつ再計算するかを決定するための定コスト信号として利用する,トレーニング不要なKVキャッシュ手法であるEntropyCacheを提案する。
LLaDA-8B-InstructとDream-7B-Instructの実験によると、EntropyCacheは15.2times$-26.4times$標準ベンチマークのスピードアップ、22.4times$-24.1times$-24.1times$。
論文 参考訳(メタデータ) (2026-03-19T04:46:34Z) - KnapSpec: Self-Speculative Decoding via Adaptive Layer Selection as a Knapsack Problem [12.668341559890605]
KnapSpecは、knapsack問題としてドラフトモデル選択を再構成し、トークン毎のスループットを最大化する、トレーニング不要のフレームワークである。
本稿では,トークンの受入率の数学的代用として,隠れ状態間のコサイン類似性を証明した最初の厳密な理論的解析を行う。
Qwen3とLlama3の実験は、KnapSpecが最先端のベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2026-02-23T08:13:03Z) - Attention in Constant Time: Vashista Sparse Attention for Long-Context Decoding with Exponential Guarantees [0.0]
大規模な言語モデルは、長いコンテキストに対する推論コストの大部分を注意に費やします。
我々はこの現象をキーベクトルの凸殻への射影として注意をモデル化することによって定式化する。
本稿では,クエリ毎に小さな候補セットを保持するドロップイン機構であるVasista Sparse Attentionを紹介する。
論文 参考訳(メタデータ) (2026-02-14T14:29:10Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - KVCompose: Efficient Structured KV Cache Compression with Composite Tokens [7.922206020386125]
大規模言語モデル(LLM)は、効率的な自己回帰復号化のためにキー値(KV)キャッシュに依存している。
我々は,注意誘導型,層適応型複合トークンに基づく,シンプルで効果的なKVキャッシュ圧縮フレームワークを提案する。
本手法は精度を保ちながらメモリの大幅な削減を実現し,従来手法と半構造化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-05T14:58:24Z) - RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。
本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。