論文の概要: Last But Not Least: Boundary Attention CalibratiON for Multimodal KV Cache Compression
- arxiv url: http://arxiv.org/abs/2606.14782v2
- Date: Tue, 16 Jun 2026 10:51:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.717351
- Title: Last But Not Least: Boundary Attention CalibratiON for Multimodal KV Cache Compression
- Title(参考訳): 最終段階:マルチモーダルKVキャッシュ圧縮のための境界アテンションカリブラチオン
- Authors: Tianhao Chen, Yuheng Wu, Kelu Yao, Xiaogang Xu, Xiaobin Hu, Dongman Lee,
- Abstract要約: 長い視覚的コンテキストはKVキャッシュを拡大し、復号遅延を増大させる。
既存の圧縮手法は、安定なトークン重要度推定のために観測窓の注意を頼りにしている。
本稿では,最後の問合せで観測窓の注意を校正するプラグイン・アンド・プレイ手法であるBACONを提案する。
- 参考スコア(独自算出の注目度): 20.15746068153196
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) achieve strong vision-language reasoning, but long visual contexts enlarge the KV cache and increase decoding latency. Existing compression methods rely on observation window attention for stable token-importance estimation, yet this aggregation can dilute sparse visual evidence and discard answer-critical tokens under aggressive compression. Therefore, we identify last-query attention as a complementary source for recovering such evidence, but its answer-irrelevant signals can mislead retention. We propose BACON, a plug-and-play method that calibrates observation window attention with last-query evidence and suppresses isolated noise via intra-layer coherence and inter-layer persistence. Across diverse benchmarks, models, budgets, and compression methods, BACON improves multimodal KV compression by 7.5% on average under the most aggressive budget, with gains up to 30.9%. Our project page is available at https://ryu1ion.github.io/official_BACON/
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は強力な視覚言語推論を実現するが、長い視覚的コンテキストはKVキャッシュを拡大し、復号遅延を増加させる。
既存の圧縮法は、安定なトークン重要度推定のために観測窓の注意を頼りにしているが、この集約は、粗い視覚的証拠を減らし、積極的な圧縮の下で応答クリティカルなトークンを破棄することができる。
そこで我々は,このような証拠を回収するための補完的な情報源として,最後の問合せを同定するが,その応答非関連信号は保持を誤解させる可能性がある。
そこで本稿では,階層内コヒーレンスと層間永続性による孤立雑音を抑えながら,観測窓の注意を連続的な証拠で校正するプラグアンドプレイ手法であるBACONを提案する。
様々なベンチマーク、モデル、予算、圧縮方法により、BACONは最も攻撃的な予算で平均7.5%のマルチモーダルKV圧縮を改善し、30.9%まで上昇する。
私たちのプロジェクトページはhttps://ryu1ion.github.io/official_BACON/で公開されています。
関連論文リスト
- Understanding the Physics of Key-Value Cache Compression for LLMs through Attention Dynamics [22.98826013817833]
トークンレベルのルーティングの制御摂動として,KV圧縮を物理に着想を得た視点を提案する。
適度な圧縮は、内部表現をほとんど精度の低下なく劣化させ、冗長性を明らかにする。
トークンサバイバルにもかかわらず、過度なヘッドレベルのコンセンサスによってルーティングの柔軟性が崩壊する表現剛性を特定する。
論文 参考訳(メタデータ) (2026-03-02T04:16:36Z) - MTC-VAE: Multi-Level Temporal Compression with Content Awareness [54.85288415164888]
Latent Video Diffusion Models (LVDMs) は可変オートエンコーダ (VAEs) を使ってビデオをコンパクトな遅延表現に圧縮する。
固定圧縮率VAEを多段階時間圧縮をサポートするモデルに変換する手法を提案する。
論文 参考訳(メタデータ) (2026-02-01T17:08:02Z) - Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction [50.99402504483692]
凍結重み付き言語モデルのための新しいゲーティングベースのKVキャッシュ消去手法を提案する。
私たちのアプローチは、プリフィルとデコードの両方の段階にシームレスに統合されます。
実験の結果,KVキャッシュの最大70%を除去しながら,ほぼ無作為な性能を維持していることがわかった。
論文 参考訳(メタデータ) (2026-01-25T03:07:54Z) - Expected Attention: KV Cache Compression by Estimating Attention from Future Queries Distribution [2.894551569099569]
我々は、KVペアの重要性を予測し、将来のクエリがそれに参加するかを予測する、トレーニング不要な圧縮手法である、textbfExpected Attentionを紹介した。
本手法はプリフィルとデコードの両方のフェーズでシームレスに動作し,両シナリオにおいて常に最先端のベースラインよりも優れています。
$textbfweがKVPressをリリースした。KVキャッシュ圧縮メソッドの実装とベンチマークを可能にする包括的なライブラリだ。
論文 参考訳(メタデータ) (2025-10-01T08:12:14Z) - Value-Guided KV Compression for LLMs via Approximated CUR Decomposition [24.262712463465665]
CurDKVは、CUR行列分解から計算したレバレッジスコアに基づいてキーと値を選択する、新しい、値中心のKV圧縮手法である。
我々のアプローチは、注意出力$softmax(QKT)V$の支配的部分空間を近似し、保持されたトークンがモデルの予測挙動を最善に維持することを保証する。
論文 参考訳(メタデータ) (2025-09-18T15:04:06Z) - CommonKV: Compressing KV Cache with Cross-layer Parameter Sharing [54.34080239841088]
CommonKVは、隣接パラメータ共有による層間KVキャッシュ圧縮のトレーニング不要な方法である。
提案手法は,様々な圧縮比で既存の低ランクおよびクロスレイヤーの手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-08-22T06:55:45Z) - Homogeneous Keys, Heterogeneous Values: Exploiting Local KV Cache Asymmetry for Long-Context LLMs [28.554617623874176]
我々は、KVキャッシュにおいて、基本的かつ以前見過ごされた非対称性を示す。
キー値の非対称性は、既存の圧縮法に限界があることを示している。
均質性に基づく鍵マージと数学的に証明されたロスレス値圧縮を併用したトレーニングフリー圧縮フレームワーク(AsymKV)を提案する。
論文 参考訳(メタデータ) (2025-06-04T16:10:44Z) - FlowKV: Enhancing Multi-Turn Conversational Coherence in LLMs via Isolated Key-Value Cache Management [48.904743679691414]
FlowKVはKVキャッシュ管理のための新しいマルチターン分離機構である。
蓄積された圧縮KVキャッシュを過去のターンから保存する。
古い文脈の再圧縮を防ぎ、破滅的な忘れを和らげる。
論文 参考訳(メタデータ) (2025-05-21T10:20:46Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - Can LLMs Maintain Fundamental Abilities under KV Cache Compression? [29.510433427184385]
各種基本言語モデルにおけるKVキャッシュ圧縮の効果を評価するためのベンチマークKVFundaBenchを提案する。
ショットレベルのセマンティックコヒーレンスを維持しつつ、プリフィルとデコードフェーズを処理する新しい圧縮手法ShotKVを提案する。
論文 参考訳(メタデータ) (2025-02-04T02:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。