論文の概要: Kamera: Unified Position-Invariant Multimodal KV Cache for Training-Free Reuse
- arxiv url: http://arxiv.org/abs/2606.23581v1
- Date: Mon, 22 Jun 2026 16:47:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 18:07:22.785375
- Title: Kamera: Unified Position-Invariant Multimodal KV Cache for Training-Free Reuse
- Title(参考訳): Kamera: トレーニングフリーリユースのための統一位置不変マルチモーダルKVキャッシュ
- Authors: Bole Ma, Jan Eitzinger, Harald Koestler, Gerhard Wellein,
- Abstract要約: マルチモーダルエージェントは、同じビデオフレーム、UIスクリーンショット、アーティファクトをコンテキストウィンドウスライドとして再検査する。
この再計算は回避可能であることを示すとともに,KV再利用が損なうものを特定する。
したがって、ブラインドはシングルホップのリコールをそのまま残し、マルチホップの精度を半減させる。
トレーニング不要な低ランク条件パッチを各位置のないチャンクに格納して修復する。
- 参考スコア(独自算出の注目度): 1.081571058570587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal agents repeatedly re-examine the same video frames, UI screenshots, and rendered artifacts as their context window slides and reasoning iterates, yet every look-back re-encodes from scratch, because prefix caches serve reuse only at a fixed leading position. We show this recompute is avoidable, and identify exactly what naive KV reuse loses: the cross-chunk conditioning a chunk absorbs from its neighbours. This loss is asymmetric. The direct readout of a cached chunk is recovered exactly and for free by the standard state-merge. What remains is a diffuse, low-rank residue concentrated in deep layers, invisible to single-hop retrieval but precisely what multi-hop reasoning binds on. Blind reuse therefore leaves single-hop recall intact while halving multi-hop accuracy; this is the failure mode prior position-independent caches, designed for single-context or single-image reuse, do not address. We repair it with a small, training-free low-rank conditioning patch stored alongside each position-free chunk. Reuse reduces to one operator across MLA, GQA, and MHA: exact RoPE re-rotation to any target position, plus the patch that restores cross-chunk binding. This makes three window operations cheap: reorder (one patch serves every ordering of a cached set), sliding-window survival (surviving chunks relocate via rotation only, zero re-encode), and recall (an evicted chunk is rehydrated by its patch, never re-encoded). A rank-m patch recovers full task accuracy on cross-chunk-binding benchmarks, MM-NIAH across two attention families and two-page doc-QA, at a fraction of the KV footprint, and reconstructs re-prefill KV to within bf16 rounding in a production SGLang kernel across six backbones. The conditioning signal is strongest in redundant vision and video streams, making our solution most impactful where multimodal agents spend their recompute budget.
- Abstract(参考訳): マルチモーダルエージェントは、同じビデオフレーム、UIスクリーンショット、描画されたアーティファクトを、コンテキストウィンドウのスライドや推論の繰り返しとして再検査するが、すべてのルックバックがスクラッチから再エンコードされる。
この再計算は回避可能であることを示すとともに、KV再利用が損なうもの、すなわちチャンクが隣人から吸収されるクロスチャンク条件を正確に識別する。
この損失は非対称である。
キャッシュされたチャンクの直接読み出しは、標準状態マージによって正確にかつ無償で回収される。
残るものは、深層に集中した拡散性で低ランクな残留物であり、シングルホップ検索には見えないが、正確にはマルチホップ推論が結合している。
したがって、Blindの再利用はシングルホップのリコールをそのまま残し、マルチホップの精度を半減させる。
トレーニング不要な低ランク条件パッチを各位置のないチャンクに格納して修復する。
リユース(reuse)は、MLA、GQA、MHAの1つの演算子に還元される。
これは3つのウィンドウ操作を安くする:リオーダー(1つのパッチはキャッシュされた集合の全ての順序で機能する)、スライディングウィンドウサバイバル(チャンクの存続は回転のみで、再エンコードはゼロ)、リコール(削除されたチャンクはパッチによってリハイドされ、再エンコードされることはない)である。
rank-mパッチは、2つの注目ファミリーと2ページのdoc-QAにまたがるMM-NIAHをKVフットプリントのごく一部でクロスチャンクバインディングベンチマークの完全なタスク精度を回復し、6つのバックボーンにまたがるプロダクションSGLangカーネルのbf16ラウンドリングでKVを再構築する。
コンディショニング信号は冗長な視覚とビデオストリームで最強であり、マルチモーダルエージェントが再計算予算を費やす場合、私たちのソリューションは最も影響を受けます。
関連論文リスト
- GRKV: Global Regression for Training-Free KV Cache Compression in Long-Context LLMs [97.36238579001544]
コンテキスト長が拡張された大規模言語モデル(LLM)は、キー値(KV)キャッシュに依存して、以前のトークンに対する注意をサポートする。
KVキャッシュを維持することは、KVキャッシュ圧縮メソッドを動機付け、かなりのメモリオーバーヘッドを引き起こす。
GRKVは,圧縮キャッシュとフルキャッシュのアテンション出力の差を直接最小化する,トレーニング不要なKV-cacheマージ手法である。
論文 参考訳(メタデータ) (2026-05-29T10:16:30Z) - Probing the Prompt KV Cache: Where It Becomes Dispensable [9.529147118376464]
以前のKVキャッシュ圧縮スキームは、プリミティブキャッシュがデコード、ドロップまたは要約時に部分的に冗長であり、精度の低下が少ないことを実証的に示していた。
どのレイヤ、何個のデコードステップ、どの形式のプロンプトがタスクを壊さずにKVキャッシュに置換できるのか。
制御されたスプライス介入が層切断と復号ステップを乗り越え、この冗長性は内容ではなく形(チャットテンプレートの足場)であることを示す。
論文 参考訳(メタデータ) (2026-05-28T21:07:41Z) - WorldKV: Efficient World Memory with World Retrieval and Compression [56.57011243315561]
我々は、World RetrievalとWorld Compressionの2つのコンポーネントを備えた、トレーニング不要のフレームワークであるWorldKVを提案する。
Matrix-Game-2.0とLingBot-World-Fastでは、WorldKVはスループットの約2倍のフルKVメモリ忠実度に対応し、微調整なしでメモリトレーニングされたベースラインと競合する。
論文 参考訳(メタデータ) (2026-05-21T16:55:04Z) - Make Each Token Count: Towards Improving Long-Context Performance with KV Cache Eviction [65.710271475739]
我々は,各トークンの将来のユーティリティを統一メモリ予算の下で学習する,グローバルな保持に基づくKV消去手法を提案する。
提案手法は,フルキャッシュ推論に適合したり,超えたりしながら,KVメモリを大幅に削減することを示す。
これらの結果から,世界規模で校正されたKV消去は圧縮技術であるだけでなく,長文推論を改善するメカニズムでもあることが示唆された。
論文 参考訳(メタデータ) (2026-05-10T16:47:50Z) - Sparse Prefix Caching for Hybrid and Recurrent LLM Serving [0.7284556903703034]
重なり合う深さの分布の下で,スパースプレフィックスキャッシングをチェックポイント配置として定式化する。
リクエストが非自明なプレフィックスを共有する場合、実世界のデータ上で標準非対称性によって追跡されるフロンティアを一貫して改善することを示す。
正確な出力を保持し、リカレント計算自体を変更したり、新しいリカレント更新カーネルを必要としたりしない。
論文 参考訳(メタデータ) (2026-04-17T09:24:58Z) - RelayCaching: Accelerating LLM Collaboration via Decoding KV Cache Reuse [5.597099794399441]
RelayCachingはトレーニング不要な推論手法で、前のエージェントから復号フェーズKVキャッシュを直接再利用する。
RelayCachingは80%以上のKVキャッシュの再利用を実現し、TTFTを標準パイプラインと比較して最大4.7倍のコストで削減できることを示す。
論文 参考訳(メタデータ) (2026-02-28T04:46:28Z) - PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - MEPIC: Memory Efficient Position Independent Caching for LLM Serving [16.99046229452175]
位置,要求,バッチ間でのチャンクKVの再利用を可能にするメモリ効率のよいシステムを提案する。
MePICはチャンクKVをページストレージにアライメントし、再計算をトークンレベルからブロックレベルにシフトする。
論文 参考訳(メタデータ) (2025-12-18T18:04:01Z) - Cache-Craft: Managing Chunk-Caches for Efficient Retrieval-Augmented Generation [14.842469293627271]
CacheCraftは、テキストチャンクに対応する計算済みKVの再利用を管理するシステムである。
再利用可能なチャンクキャッシュの特定方法、キャッシュの修正に少数の再計算を効率的に行う方法、ハードウェアにチャンクキャッシュを効率よく保存・削除する方法を示す。
論文 参考訳(メタデータ) (2025-02-05T14:12:33Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。