論文の概要: FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention
- arxiv url: http://arxiv.org/abs/2606.09079v2
- Date: Tue, 09 Jun 2026 17:04:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:57.952121
- Title: FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention
- Title(参考訳): FlashMemory-DeepSeek-V4:Lookahead Sparse AttentionによるLightning Index Ultra-Long Context
- Authors: Yan Wang, Qifan Zhang, Jiachen Yu, Tian Liang, Dongyang Ma, Xiang Hu, Zibo Lin, Chunyang Li, Zhichao Wang, Miao Peng, Nuo Chen, Jia Li, Yujiu Yang, Haitao Mi, Dong Yu,
- Abstract要約: Lookahead Sparse Attention (LSA)は、DeepSeek-V4アーキテクチャ上に構築されたNeural Memory Indexerを利用している。
このアーキテクチャをバックボーンフリーの非結合なトレーニング戦略でインスタンス化する。
FM-DS-V4は、物理KVキャッシュのフットプリントを、フルコンテキストベースラインのわずか13.5%まで圧縮することを示した。
- 参考スコア(独自算出の注目度): 77.12062766962815
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Conventional LLMs keep the full KV cache loaded during decoding, causing a severe GPU memory bottleneck for ultra-long context serving. In this report, we propose Lookahead Sparse Attention (LSA), a novel inference paradigm powered by a Neural Memory Indexer built upon the DeepSeek-V4 architecture. Rather than passively attending to all historical tokens, LSA proactively predicts future context demands and preserves only the query-critical KV chunks in the GPU memory. Crucially, we instantiate this architecture via a backbone-free decoupled training strategy. By formulating the indexer as a standard dual-encoder architecture, we train it independently using standard retrieval training frameworks without ever loading the massive backbone model into GPU memory. We demonstrate that this "less is more" paradigm significantly maximizes serving efficiency while acting as an effective attention denoiser in tasks that rely on long-term global memory. Across primary long-context evaluation suites (e.g., LongBench-v2, LongMemEval, and RULER), FM-DS-V4 compresses the average physical KV cache footprint down to merely 13.5% of the full-context baseline, while consistently preserving or slightly elevating downstream accuracy (+0.6% absolute margin on average). Crucially, at extreme 500K scales, FlashMemory suppresses the physical KV cache overhead by over 90% without destabilizing the backbone's core reasoning capacities.
- Abstract(参考訳): 従来のLLMは、デコード中に完全なKVキャッシュをロードし続けるため、超長期のコンテキストサービスでは、GPUメモリのボトルネックが深刻になる。
本稿では,DeepSeek-V4アーキテクチャ上に構築されたニューラルメモリインデクサを用いた新しい推論パラダイムであるLookahead Sparse Attention (LSA)を提案する。
すべての歴史的なトークンに受動的に参加するのではなく、LSAは将来的なコンテキスト要求を積極的に予測し、GPUメモリ内のクエリクリティカルなKVチャンクのみを保存する。
重要なのは、バックボーンのない分離されたトレーニング戦略を通じて、このアーキテクチャをインスタンス化することです。
インデクサを標準のデュアルエンコーダアーキテクチャとして定式化することにより、巨大なバックボーンモデルをGPUメモリにロードすることなく、標準の検索トレーニングフレームワークを使用して独立にトレーニングする。
我々は,この「不要」パラダイムが,長期的グローバルメモリに依存したタスクにおいて,効果的な注意障害として機能しながら,効率を著しく向上することを示した。
FM-DS-V4は、主要な長文評価スイート(例えば、LongBench-v2、LongMemEval、RULER)全体にわたって、平均的な物理KVキャッシュのフットプリントをわずか13.5%まで圧縮し、下流の精度を継続的に保存またはわずかに上昇させる(平均は+0.6%)。
重要なことに、極端な500Kスケールでは、フラッシュメモリはバックボーンのコア推論能力を不安定にすることなく、物理KVキャッシュのオーバーヘッドを90%以上抑制する。
関連論文リスト
- KVDrive: A Holistic Multi-Tier KV Cache Management System for Long-Context LLM Inference [23.683284557561112]
我々は、GPUメモリ、ホストDRAM、SSDにまたがる総合的なマルチ層KVキャッシュ管理システムであるKVDriveを紹介する。
KVDriveは、キャッシュ配置、パイプラインスケジューリング、階層間の調整を共同でオーケストレーションするシステムの観点から、この問題に取り組む。
このシステムは精度を保ちながら最先端の作業に比べて最大1.74倍のスループットを実現している。
論文 参考訳(メタデータ) (2026-05-18T08:54:16Z) - Out of the Memory Barrier: A Highly Memory Efficient Training System for LLMs with Million-Token Contexts [68.79341332280062]
長いコンテキストでの大規模言語モデル(LLM)のトレーニングは、トレーニング時間ではなく、GPUメモリの異常なオーバーヘッドによって厳しく制限される。
この障壁に直面するメモリ効率の高いトレーニングシステムOOMBを紹介します。
本手法では,オンザフライアクティベーション・リコンピュテーションを備えたチャンク・リカレント・トレーニング・フレームワークを用いて,一定のアクティベーションメモリフットプリントを維持する。
論文 参考訳(メタデータ) (2026-02-02T13:52:40Z) - HCAttention: Extreme KV Cache Compression via Heterogeneous Attention Computing for LLMs [13.013668526921778]
既存のKVキャッシュ圧縮手法は、メモリが85%以上削減されたときに顕著な性能劣化を示す。
我々は、鍵量子化、値オフロード、動的KV消去を統合した異種アテンションフレームワークであるHCAttentionを提案する。
また,LongBenchベンチマークを用いて,KVキャッシュメモリのフットプリントを25%に縮めながら,本手法が完全アテンションモデルの精度を維持することを示した。
論文 参考訳(メタデータ) (2025-07-26T06:43:14Z) - Paged Attention Meets FlexAttention: Unlocking Long-Context Efficiency in Deployed Inference [1.0175051111288864]
我々はPyTorchのFlexAttentionとPagedAttentionの新たな統合を紹介します。
NVIDIA L4 GPUのベンチマークでは、推論遅延が大幅に削減された。
実装全体をオープンソースとして公開し、将来の長期コンテキストモデル展開におけるその意義について論じます。
論文 参考訳(メタデータ) (2025-06-08T22:59:20Z) - TailorKV: A Hybrid Framework for Long-Context Inference via Tailored KV Cache Optimization [21.229296254354878]
生成型大規模言語モデル(LLM)におけるキーバリューキャッシュは、かなりのメモリオーバーヘッドをもたらす。
既存の作業は、KVキャッシュをオフロードまたは圧縮することで、この負担を軽減する。
本稿では,量子化とオフロードをシームレスに統合するハイブリッド圧縮手法であるTailorKVを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:00:04Z) - SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。