論文の概要: HACK++: Towards More Effective Head-Aware Key-Value Compression for Efficient Visual Autoregressive Modeling
- arxiv url: http://arxiv.org/abs/2606.08302v1
- Date: Sat, 06 Jun 2026 18:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.02908
- Title: HACK++: Towards More Effective Head-Aware Key-Value Compression for Efficient Visual Autoregressive Modeling
- Title(参考訳): HACK++: 効率的な視覚自己回帰モデリングのための、より効果的なヘッドアウェアキーバリュー圧縮を目指す
- Authors: Ziran Qin, Yuchen Jiang, Mingbao Lin, Youru Lv, Hang Guo, Wen Fei, Weiyao Lin,
- Abstract要約: HACK++は、Visual Autoregressive (VAR)モデルのためのトレーニングフリーのヘッドアウェアキーバリュー圧縮フレームWorKである。
独立した予算下でのキャッシュ圧縮からの注意を分離し、蓄積されたキャッシュをより積極的に圧縮しながら、現在のスケールの注意コストを制限します。
例えば、Infinity-2B/8Bでは、HACK++は30%の注意予算と10%のキャッシュ予算しか持たず、1%のキャッシュ予算の下でも堅牢である。
- 参考スコア(独自算出の注目度): 42.1403262611533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Autoregressive (VAR) models adopt a next-scale prediction paradigm, offering high-quality generation with substantially fewer decoding steps. However, existing VAR models suffer from significant attention complexity and severe memory overhead due to the accumulation of key-value (KV) caches across scales. In this paper, we tackle this challenge by introducing KV cache compression into the next-scale paradigm. We begin with an in-depth analysis of VAR attention and observe that attention heads can be stably divided into two functionally distinct categories: Contextual Heads focus on maintaining semantic consistency, while Structural Heads preserve spatial coherence. Their functional divergence makes existing one-size-fits-all compression methods perform poorly on VAR models. We further find that the two head types differ markedly in their reliance on historical scales, and that this reliance shifts across layers and generation steps, arguing for an adaptive cache budget allocation. To address these challenges, we propose HACK++, a training-free Head-Aware key-value Compression frameworK for VAR models. From a one-time offline calibration, HACK++ classifies head types and derives head-specific priors. At inference, it decouples attention from cache compression under independent budgets, bounding the current-scale attention cost while compressing the accumulated cache far more aggressively, via pattern-specific strategies and a reliance-aware budget allocation. Extensive experiments on multiple VAR models across text-to-image, class-conditional, and unified understanding-and-generation tasks validate the effectiveness and generalizability of HACK++. For example, on Infinity-2B/8B, HACK++ maintains near-lossless generation with only a 30% attention budget and a 10% cache budget, and remains robust even under a 1% cache budget.
- Abstract(参考訳): Visual Autoregressive (VAR)モデルは次世代の予測パラダイムを採用しており、デコード手順が大幅に少ない高品質な生成を提供する。
しかしながら、既存のVARモデルでは、キーバリュー(KV)キャッシュがスケールにわたって蓄積されているため、注意の複雑さとメモリオーバーヘッドが著しく低下する。
本稿では,次世代のパラダイムにKVキャッシュ圧縮を導入することで,この問題に対処する。
まず、VARの注意を詳細に分析し、注意頭が安定して機能的に異なる2つのカテゴリに分けることができることを観察する。
それらの機能的ばらつきにより、既存のワンサイズ圧縮手法はVARモデルでは性能が良くない。
さらに、この2つのヘッドタイプは、歴史的スケールに依存する点で著しく異なり、この依存は層や生成ステップにまたがって変化し、適応的なキャッシュ予算配分を主張する。
これらの課題に対処するため、VARモデルのための訓練不要なヘッドアウェアキー値圧縮フレームWorKであるHACK++を提案する。
1回のオフラインキャリブレーションから、HACK++はヘッドタイプを分類し、ヘッド固有のプリミティブを導出する。
推論では、独立した予算下でのキャッシュ圧縮から注意を分離し、現在の規模の注意コストを境界にしつつ、パターン固有の戦略と依存を意識した予算割り当てを通じて、蓄積されたキャッシュをより積極的に圧縮する。
テキスト・ツー・イメージ、クラス・条件、統合された理解・生成タスクにわたる複数のVARモデルに対する大規模な実験は、HACK++の有効性と一般化性を検証する。
例えば、Infinity-2B/8Bでは、HACK++は30%の注意予算と10%のキャッシュ予算しか持たず、1%のキャッシュ予算の下でも堅牢である。
関連論文リスト
- Head-Aware Key-Value Compression for Efficient Autoregressive Image Generation [27.042998548651358]
オートレグレッシブ(AR)ビジュアル生成は目覚ましい性能を達成したが、高いメモリ使用量と低スループットに悩まされている。
最近の研究では、数行のキャッシュトークンしか保持せず、高品質な画像を維持することができ、メモリ使用量を大幅に削減し、スループットを向上させることが示されている。
本稿では,HeadKVと呼ばれる自己回帰画像生成のための新しいキー値(KV)キャッシュ圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-20T01:30:33Z) - HeteroCache: A Dynamic Retrieval Approach to Heterogeneous KV Cache Compression for Long-Context LLM Inference [14.17979669446161]
トレーニング不要な動的圧縮フレームワークであるHeteroCacheを提案する。
We show that HeteroCache achieves state-of-the-art performance on multiple long-context benchmarks and accelerates decoding by up $3times$ in the original model in the 224K context。
論文 参考訳(メタデータ) (2026-01-20T07:35:06Z) - Which Heads Matter for Reasoning? RL-Guided KV Cache Compression [15.865990296257413]
推論可能な大きな言語モデルは、拡張されたチェーン・オブ・ソート・ジェネレーションを通じて複雑な推論の振る舞いを示す。
既存のKVキャッシュ圧縮手法は推論モデルでは性能が低い。
本稿では,新しい推論クリティカルな頭部識別フレームワークRLKVを提案する。
論文 参考訳(メタデータ) (2025-10-09T17:50:00Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - Head-Aware KV Cache Compression for Efficient Visual Autoregressive Modeling [27.79903885315292]
既存のKVキャッシュ圧縮技術は、Visual Autoregressive(VAR)モデルに最適である。
KVキャッシュのための訓練不要なヘッドアウェア圧縮手法であるHACKを提案する。
論文 参考訳(メタデータ) (2025-04-12T15:42:17Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [97.41972925670508]
大規模視覚言語モデル(LVLM)は、推論中に重要な計算とメモリオーバーヘッドを引き起こす。
ここでは、PrefixKVについて述べる。ここでは、Prefixは、元のシーケンスの位置ではなく、重要度に基づいて、上位ランクのKVを意味する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - RazorAttention: Efficient KV Cache Compression Through Retrieval Heads [11.708388082001074]
トークン情報を全て保存するキーバリューキャッシュのための新しい圧縮手法を提案する。
RazorAttentionは、パフォーマンスに顕著な影響を与えずに、KVキャッシュサイズを70%以上削減する。
論文 参考訳(メタデータ) (2024-07-22T01:12:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。