論文の概要: End-to-End Context Compression at Scale
- arxiv url: http://arxiv.org/abs/2606.09659v1
- Date: Mon, 08 Jun 2026 15:43:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.477333
- Title: End-to-End Context Compression at Scale
- Title(参考訳): 大規模におけるエンド・ツー・エンドコンテキスト圧縮
- Authors: Ang Li, Sean McLeish, Haozhe Chen, Nimit Kalra, Zaiqian Chen, Artem Gazizov, Venkata Anoop Suhas Kumar Morisetty, Bhavya Kailkhura, Harshitha Menon, Zhuang Liu, Brian R. Bartoldson, Tom Goldstein, Sanae Lotfi, Micah Goldblum, Pavel Izmailov,
- Abstract要約: 長期コンテキスト言語モデル推論は、KVキャッシュがコンテキスト長とともに増加するにつれて、メモリによってボトルネックとなる。
KVキャッシュを圧縮する最近の技術は、モデル品質を著しく低下させるか、あるいはかなりの時間を要するか、1つの長いプロンプトを圧縮するために計算する。
既存のアプローチは、精度-効率のフロンティア上のKVキャッシュ圧縮と競合しない。
- 参考スコア(独自算出の注目度): 81.70601323130997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context language model inference is bottlenecked by memory, as the KV cache grows with context length. Recent techniques to compress the KV cache fall short: they either degrade model quality substantially or require considerable time and compute to compress a single long prompt. Furthermore, many methods require the input to fit within the target model's context window, and are generally incompatible with modern production inference engines. Encoder-decoder compressors, which map a long token sequence to a shorter sequence of latent embeddings consumed by a decoder, are an appealing alternative in principle. However, existing approaches are not competitive with KV cache compression on the accuracy-efficiency frontier. In this work, we revisit encoder-decoder compression and close this gap. We first perform an architecture search, pre-training many variants from scratch to determine how best to design and train encoder-decoder compressors. Guided by our findings, we continually pre-train a family of 0.6B-encoder, 4B-decoder models on over 350B tokens each, at compression ratios of 1:4, 1:8, and 1:16. We introduce Latent Context Language Models (LCLMs), a family of compressors that improve the Pareto frontier across general-task performance, compression speed, and peak memory usage. We demonstrate that LCLMs serve as efficient backbones for long-horizon agents, letting the agent skim through a compressed long context and adaptively expand relevant segments on demand.
- Abstract(参考訳): 長期コンテキスト言語モデル推論は、KVキャッシュがコンテキスト長とともに増加するにつれて、メモリによってボトルネックとなる。
KVキャッシュを圧縮する最近の技術は、モデル品質を著しく低下させるか、あるいはかなりの時間を要するか、1つの長いプロンプトを圧縮するために計算する。
さらに、多くのメソッドは、ターゲットモデルのコンテキストウィンドウに適合するインプットを必要とし、一般的に現代のプロダクション推論エンジンと互換性がない。
エンコーダ・デコーダ圧縮機は、長いトークンシーケンスをデコーダが消費する遅延埋め込みの短いシーケンスにマッピングする。
しかし、既存の手法は精度・効率のフロンティア上でのKVキャッシュ圧縮と競合しない。
本研究では,エンコーダ-デコーダ圧縮を再検討し,このギャップを埋める。
まずアーキテクチャ検索を行い、多くの変種をスクラッチから事前学習し、エンコーダ・デコーダ圧縮機をいかに設計し、訓練するかを決定する。
その結果, 350Bトークン上で0.6Bエンコーダ, 4Bデコーダモデルを1:4, 1:8, 1:16の圧縮比で連続的に事前訓練した。
汎用タスク性能,圧縮速度,ピークメモリ使用量でパレートフロンティアを向上する圧縮機群であるLatent Context Language Models (LCLMs)を紹介する。
LCLMは長期エージェントの効率的なバックボーンとして機能し、圧縮された長期コンテキストを通してエージェントをスキムさせ、必要に応じて関連セグメントを適応的に拡張することを示した。
関連論文リスト
- One Token per Highly Selective Frame: Towards Extreme Compression for Long Video Understanding [51.08792182064565]
長いビデオ理解は、膨大なフレーム数のため、視覚言語モデル(VLM)にとって本質的に困難である。
通常、ビデオフレームは数十から数百のトークンに拡張されるため、大きな言語モデル(LLM)のコンテキスト長は制限され、VLMはフレームをわずかに知覚し、時間的情報を失う。
本稿では,XComp という長大なビデオ理解のための極端な圧縮モデルを提案する。
論文 参考訳(メタデータ) (2026-04-15T17:59:52Z) - EchoKV: Efficient KV Cache Compression via Similarity-Based Reconstruction [55.026048429595384]
EchoKVは、標準と圧縮された推論間のオンデマンド移行を可能にする柔軟なKVキャッシュ圧縮スキームである。
高速で低コストなトレーニングを可能にする2段階の微調整戦略を導入する。
論文 参考訳(メタデータ) (2026-03-24T07:58:42Z) - DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - Cmprsr: Abstractive Token-Level Question-Agnostic Prompt Compressor [36.57824786347272]
LLM-as-a-compressorベンチマークは25のオープンソースモデルとクローズドソースモデルにまたがる。
我々は,テキストグラデーションに基づく圧縮メタプロンプト最適化により,最高のバニラ圧縮器の性能を向上させる。
得られたモデルをCmprsrと呼び、抽出圧縮とバニラ抽象圧縮の両方よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-11-15T16:28:03Z) - Compactor: Calibrated Query-Agnostic KV Cache Compression with Approximate Leverage Scores [37.41699761967978]
KVキャッシュは、しばしば現実世界のデプロイメントにおいて、主要なリソースボトルネックである。
パラメータフリーでクエリに依存しないKV圧縮戦略であるCompactorを提案する。
本研究では,コンパクタがLongbench上でのフルKV性能を実現するとともに,KVメモリの負荷を平均63%低減することを示す。
論文 参考訳(メタデータ) (2025-07-10T20:03:35Z) - KV-Distill: Nearly Lossless Learnable Context Compression for LLMs [37.0803484148612]
我々は、長いコンテキストKVキャッシュをはるかに短い表現に蒸留するTransformer圧縮フレームワークであるKV-Distillを紹介する。
KV-Distillは、事前訓練されたモデルに対するパラメータ効率の良い適応器として訓練することができる。
ドメイン固有のコンテキストを微調整することで、下流のパフォーマンスを維持しながら、最大99%の長さを削減できる。
論文 参考訳(メタデータ) (2025-03-13T13:15:28Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。