論文の概要: Execution-State Capsules: Graph-Bound Execution-State Checkpoint and Restore for Low-Latency, Small-Batch, On-Device Physical-AI Serving
- arxiv url: http://arxiv.org/abs/2606.20537v1
- Date: Thu, 18 Jun 2026 17:49:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:40.039013
- Title: Execution-State Capsules: Graph-Bound Execution-State Checkpoint and Restore for Low-Latency, Small-Batch, On-Device Physical-AI Serving
- Title(参考訳): Execution-State Capsules: Graph-Bound Execution-State Checkpoint and Restore for Low-Latency, Small-Batch, On-Device Physical-AI Serving
- Authors: Liang Su,
- Abstract要約: 我々は、低レイテンシ、小バッチ、デバイス上の物理AIサービスという、反対の体制について研究する。
完全復元可能な状態に対するグラフバウンドチェックポイントと復元機構である実行状態カプセルを導入する。
これにより、トークンアドレス付きKVフラグメントからグラフバウンド実行状態境界への再利用が実現される。
- 参考スコア(独自算出の注目度): 0.5076419064097734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mainstream LLM serving systems reuse prefix work mainly through paged or radix key-value (KV) caches. This is highly effective for high-throughput, high-concurrency serving, but it manages only one positional fragment of execution state: the KV cache. We study the opposite regime: low-latency, small-batch, on-device physical-AI serving, where interactive LLM agents, speech systems, and robot policies repeatedly branch, reset, interrupt, and re-enter under tight responsiveness budgets. We introduce execution-state capsules, a graph-bound checkpoint and restore mechanism for the complete restorable state at a committed boundary. FlashRT is a white-box, backend-facing kernel runtime whose evaluated NVIDIA CUDA backend runs captured graph plans over contiguous static buffers with no block-table indirection. Because the live state is a closed set of named buffers, a capsule can snapshot, restore, fork, or roll back the whole execution boundary, including KV, recurrent state, convolution state, MTP state, and metadata. This moves reuse from token-addressed KV fragments to graph-bound execution-state boundaries. On an RTX 5090, capsule restore is byte-exact at the stored-state level and token-identical under greedy decode. A KV-only ablation diverges, showing that recurrent state is load-bearing. GPU-resident snapshot and restore are sub-millisecond, and TTFT speedup over cold prefill grows from 3.9x at 2k tokens to 27x at 16k tokens. On Jetson AGX Thor and DGX Spark, the same correctness and structural properties hold. Capsules are not a replacement for high-throughput KV-cache serving; they define a complementary latency-first serving point for explicit execution-state reuse.
- Abstract(参考訳): メインストリームLLMサービスシステムは、主にページドまたはラディックスキー値(KV)キャッシュを介してプレフィックスを再利用する。
これは高スループットで高コンカレンシーなサービスには有効だが、KVキャッシュという1つの実行状態の断片しか管理しない。
対話型LLMエージェント,音声システム,ロボットポリシが,応答性の厳密な予算の下で分岐,リセット,中断,再突入を繰り返して行う,低レイテンシ,小バッチ,オンデバイス型物理AIサービスについて検討した。
コミット境界における完全回復状態に対するグラフバウンドチェックポイントと復元機構である実行状態カプセルを導入する。
FlashRTはホワイトボックスでバックエンド対応のカーネルランタイムで、評価されたNVIDIA CUDAバックエンドは、ブロックテーブルの間接性のない連続的な静的バッファ上で、キャプチャーグラフプランを実行する。
ライブ状態は名前付きバッファのクローズドなセットであるため、カプセルはKV、リカレント状態、畳み込み状態、MPP状態、メタデータを含む、実行バウンダリ全体をスナップショット、復元、フォーク、ロールバックすることができる。
これにより、トークンアドレス付きKVフラグメントからグラフバウンド実行状態境界への再利用が実現される。
RTX 5090では、カプセルの復元は保存状態レベルでバイトエクティベートされ、greedyデコードの下でトークン識別される。
KVのみのアブレーションは分岐し、リカレント状態がロードベアリングであることを示す。
GPU-Residentスナップショットとリカバリはミリ秒未満で、コールドプレフィルのTTFTスピードアップは2kトークンの3.9倍から16kトークンの27倍に増加する。
Jetson AGX Thor と DGX Spark では、同じ正しさと構造的特性が保持される。
カプセルは、高スループットのKV-cacheサービスを置き換えるものではなく、明示的な実行状態再利用のための補完的なレイテンシ優先のサービスポイントを定義する。
関連論文リスト
- FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention [77.12062766962815]
Lookahead Sparse Attention (LSA)は、DeepSeek-V4アーキテクチャ上に構築されたNeural Memory Indexerを利用している。
このアーキテクチャをバックボーンフリーの非結合なトレーニング戦略でインスタンス化する。
FM-DS-V4は、物理KVキャッシュのフットプリントを、フルコンテキストベースラインのわずか13.5%まで圧縮することを示した。
論文 参考訳(メタデータ) (2026-06-08T06:25:54Z) - LazyAttention: Efficient Retrieval-Augmented Generation with Deferred Positional Encoding [11.799175681800696]
キーバリュー(KV)キャッシュは、生成されたトークンに対する過去の計算を再利用することで、大きな言語モデル(LLM)の推論を加速する。
既存のソリューションは、再利用をプレフィックスに制限するか、位置再符号化のために高価なメモリの実体化を必要とする。
本稿では、遅延位置符号化をカーネル化し、ゼロコピーで位置に依存しないKVの再利用を可能にする新しいアテンション機構であるLazyAttentionを紹介する。
論文 参考訳(メタデータ) (2026-06-03T00:12:22Z) - AURA: Action-Gated Memory for Robot Policies at Constant VRAM [0.0]
AURA-Memは、一定サイズのリカレントメモリと学習ゲートを備えた凍結された視覚言語アクションバックボーンをラップする。
AURA-Mem は 5.19-6.13 倍の書き込みと 9.19 倍の書き込みを使用して、O(1) のベースラインを精度良く一致させる。
論文 参考訳(メタデータ) (2026-06-01T18:38:21Z) - Runtime-Certified Bounded-Error Quantized Attention [0.0]
本稿では,実行時対応型KVキャッシュアーキテクチャを提案する。
二項誤差分解は、キー量子化および(ii)値再構成誤差から、(i)注目分布歪みに対するヘッド当たり、ステップ当たりのバウンダリが得られる。
PG-19、NIAH、RULERのベンチマークにおいて、このシステムは言語モデリングと検索タスクのためのノイズ内の密度の高いFP16 KV品質と一致している。
論文 参考訳(メタデータ) (2026-05-20T08:04:40Z) - Attend Locally, Remember Linearly: Linear Attention as Cross-Frame Memory for Autoregressive Video Diffusion [61.57938553036056]
ARL2は、二次的なクロスフレームアテンションを固定サイズのリカレント状態に置き換えるハイブリッドアテンションモジュールである。
本研究では,フレーム内ソフトマックスブランチとフレーム間リカレント線形ブランチの2つに分割し,ストリームコンテキストの固定サイズ状態を維持する。
75%の層がハイブリッドリニアアテンションに置き換えられ、最大2.26ウォールクロックのスピードアップと54%のメモリ削減を実現した。
論文 参考訳(メタデータ) (2026-05-15T19:33:45Z) - KV-RM: Regularizing KV-Cache Movement for Static-Graph LLM Serving [6.997204534634303]
静的グラフLLMデコーダの下でKV-cache動作を規則化するランタイム設計であるKV-RMを提案する。
KV-RMは、静的グラフベースラインに対する混合長復号スループットとテール遅延を改善する。
論文 参考訳(メタデータ) (2026-05-10T20:10:26Z) - Foundry: Template-Based CUDA Graph Context Materialization for Fast LLM Serving Cold Start [33.16822047715293]
コールドスタートのレイテンシは、現代のLLMサービスプロバイダにとって依然として大きなボトルネックである。
既存のアプローチは脆いカーネル固有のパッチや実行可能なプロセスコンテキストに依存している。
本稿では、グラフトポロジと実行コンテキストの両方を永続化する、Foundryテンプレートベースのグラフ実体化システムを提案する。
論文 参考訳(メタデータ) (2026-04-08T04:31:34Z) - DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [61.412894960600205]
大きな言語モデル(LLM)は、長いテキストを処理する際に大きなGPUメモリを必要とする。
ChunkKVは、セマンティックチャンクを基本的な圧縮単位として扱うことで、KVキャッシュ圧縮を再定義する。
結果: ChunkKVは最先端の手法を最大8.7%精度で上回る。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。