論文の概要: ReasonAlloc: Hierarchical Decoding-Time KV Cache Budget Allocation for Reasoning Models
- arxiv url: http://arxiv.org/abs/2606.11164v1
- Date: Tue, 09 Jun 2026 17:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.653955
- Title: ReasonAlloc: Hierarchical Decoding-Time KV Cache Budget Allocation for Reasoning Models
- Title(参考訳): ReasonAlloc: Reasoning Modelのための階層的デコーディング時KVキャッシュ予算配分
- Authors: Wenhao Liu, Hao Shi, Yunhe Li, Weizhi Fei, Xiangyuan Wang, Mengzhe Ruan, Hanxu Hou, Peisong Wang, Linqi Song, Shuang Qiu,
- Abstract要約: ReasonAllocはデコード時のKV圧縮を階層的な予算配分問題として再キャストする。
オフラインのレイヤ単位の事前配置戦略は、アーキテクチャ駆動の需要パターンをキャプチャする。
オンラインのヘッドワイド戦略は、リアルタイムユーティリティに基づいた情報豊富なヘッドへのデコード中にリソースを再配置する。
- 参考スコア(独自算出の注目度): 51.947287846779545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long chain-of-thought (CoT) trajectories in large language model (LLM) reasoning cause severe inference bottlenecks due to rapid key-value (KV) cache growth. Current decoding-time compression methods mitigate this issue via token eviction, but typically assume a uniform budget distribution across all layers and heads. In contrast, existing non-uniform budget allocation methods are predominantly designed for the static prompt prefill phase, and they do not capture the stepwise context demands of autoregressive reasoning. To bridge this gap, we propose ReasonAlloc, a training-free framework that recasts decoding-time KV compression as a hierarchical budget allocation problem. ReasonAlloc operates at two complementary levels: an offline layer-wise preallocation strategy captures an architecture-driven demand pattern which we call ``\textit{Reasoning Wave}'', while an online head-wise strategy reallocates resources during decoding to information-rich heads based on real-time utility. Evaluations on mathematical reasoning benchmarks (MATH-500, AIME~2024) using DeepSeek-R1-Distill-Llama-8B, DeepSeek-R1-Distill-Qwen-14B, and AceReason-14B show that ReasonAlloc outperforms uniform-budget R-KV, SnapKV, and Pyramid-RKV (a baseline enforcing a static, monotonically decreasing layer budget), with the largest gains at small budgets (128-512 tokens). ReasonAlloc is plug-and-play with existing token-eviction policies and introduces negligible inference-time overhead.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論における長いチェーン・オブ・シント(CoT)軌道は、急激なキー値(KV)キャッシュの増大に起因する深刻な推論ボトルネックを引き起こす。
現在の復号時間圧縮法はトークンの排除によってこの問題を緩和するが、通常はすべての層とヘッドに均一な予算分布を仮定する。
対照的に、既存の一様でない予算配分手法は、主に静的なプロンプトプリフィルフェーズのために設計されており、自動回帰推論の段階的なコンテキスト要求を捉えていない。
このギャップを埋めるために、階層的な予算配分問題としてデコード時のKV圧縮をリキャストするトレーニング不要のフレームワークReasonAllocを提案する。
ReasonAllocは2つの補完的なレベルで動作します: オフライン層ワイドプリアロケーション戦略はアーキテクチャ駆動の需要パターンをキャプチャし、 '`\textit{Reasoning Wave}' と呼びます。
DeepSeek-R1-Distill-Llama-8B, DeepSeek-R1-Distill-Qwen-14B, AceReason-14B を用いた数学的推論ベンチマーク (MATH-500, AIME~2024) の評価によると、ReasonAlloc は統一予算 R-KV, SnapKV, Pyramid-RKV (静的で単調に減少する層予算を強制するベースライン) よりも優れており、予算が小さい (128-512トークン) 。
ReasonAllocは既存のトークン消去ポリシーをプラグイン・アンド・プレイし、無視可能な推論時間オーバーヘッドを導入している。
関連論文リスト
- Thinking Economically: A Hierarchical Framework for Adaptive-Complexity Reasoning in LLMs [36.73612668202756]
HABは、PPL由来のステップ比較からステップ固有のトークン予算信号を学ぶ。
GSM8KとMATH500の実験では、HABが標準的なCoTを超えるだけでなく、トークンの使用量を減らすことが示されている。
論文 参考訳(メタデータ) (2026-05-31T11:20:00Z) - Make Each Token Count: Towards Improving Long-Context Performance with KV Cache Eviction [65.710271475739]
我々は,各トークンの将来のユーティリティを統一メモリ予算の下で学習する,グローバルな保持に基づくKV消去手法を提案する。
提案手法は,フルキャッシュ推論に適合したり,超えたりしながら,KVメモリを大幅に削減することを示す。
これらの結果から,世界規模で校正されたKV消去は圧縮技術であるだけでなく,長文推論を改善するメカニズムでもあることが示唆された。
論文 参考訳(メタデータ) (2026-05-10T16:47:50Z) - DepthKV: Layer-Dependent KV Cache Pruning for Long-Context LLM Inference [11.462434448123169]
感性に基づいて,各層に固定されたグローバルKV予算を割り当てる階層依存型プルーニングフレームワークを提案する。
複数のモデルとタスクにわたって、DepthKVは、同じグローバルプルーニング比で一様プルーニングを一貫して上回っている。
論文 参考訳(メタデータ) (2026-04-27T16:15:37Z) - Kwai Summary Attention Technical Report [69.40814939510126]
長文の能力は、次世代の大規模言語モデルの最も重要な方向性の1つになっている。
標準ソフトマックスアテンションは、シーケンスの長さに関して2次時間複雑性を示す。
歴史的文脈を圧縮することでシーケンスモデリングコストを削減する新しいアテンションメカニズムであるKwai Summary Attention (KSA)を提案する。
論文 参考訳(メタデータ) (2026-04-27T12:59:53Z) - CASK: Core-Aware Selective KV Compression for Reasoning Traces [0.0]
CASKはデコード時の推論トレースを保護されたコアに分割し、応答の生成と中間状態、高い冗長性でマージ可能なスクラッチを固定する。
H100推論ゲートでは、CASK は AIME24 と AIME25 の整合予算において TriAttention よりも完全 KV 継続率が高く、cask@384 > triattention@512 交差が繰り返されている。
論文 参考訳(メタデータ) (2026-04-13T02:03:16Z) - Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression [55.63153956934198]
Chain-of-Thought (CoT)推論はLarge Language Models (LLMs)の推論能力をうまく向上させる
既存のCoT圧縮法は、しばしば高い圧縮比で論理的忠実度が著しく低下する。
本稿では,Extra-CoTと呼ばれる新しいEXTreme-RAtio Chain-of-Thought Compressionフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-09T06:57:15Z) - OjaKV: Context-Aware Online Low-Rank KV Cache Compression with Oja's Rule [54.37983890753086]
我々は,戦略的ハイブリッドストレージポリシとオンラインサブスペース適応を統合したフレームワークであるOjaKVを紹介する。
OjaKVは、重要かつ最新のトークンをフルランクで保存し、注意のために高忠実なアンカーを維持している。
オンライン主成分分析のためのOjaのアルゴリズムを用いて、プロジェクションベースを漸進的に適応させることにより、低ランク圧縮を適用する。
論文 参考訳(メタデータ) (2025-09-25T21:42:27Z) - Lookahead Q-Cache: Achieving More Consistent KV Cache Eviction via Pseudo Query [48.52389201779425]
KVキャッシュメモリの使用は、長いテキストシーケンスで大幅に増加する。
プリフィルステージアテンションスコアを用いた既存のKVキャッシュ消去手法Pruneトークン
Lookahead Q-Cacheは、真のデコードステージクエリをよりよく近似するために、低コストの疑似ルックアヘッドクエリを生成する。
論文 参考訳(メタデータ) (2025-05-24T10:34:38Z) - Ada-KV: Optimizing KV Cache Eviction by Adaptive Budget Allocation for Efficient LLM Inference [37.94892570127548]
大規模言語モデルは様々なドメインで優れていますが、キーバリュー(KV)キャッシュの増加によって効率上の課題に直面しています。
最近の取り組みは、実行中に大量の非クリティカルキャッシュ要素を排除し、KVキャッシュサイズを削減することを目的としている。
本稿では,Ada-KVを提案する。
論文 参考訳(メタデータ) (2024-07-16T09:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。