論文の概要: The Serialized Bridge: Understanding and Recovering LLM Serving Performance under Blackwell GPU Confidential Computing
- arxiv url: http://arxiv.org/abs/2606.23969v1
- Date: Mon, 22 Jun 2026 21:48:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.696238
- Title: The Serialized Bridge: Understanding and Recovering LLM Serving Performance under Blackwell GPU Confidential Computing
- Title(参考訳): The Serialized Bridge: Blackwell GPU Confidential Computing における LLM Serving Performance の理解と回復
- Authors: Hang Yin, Kevin Wang,
- Abstract要約: GPU-CCはNVIDIA B300上でGPUローカルなパフォーマンスを保ち、BF16 matmulは信頼できないパフォーマンスの0.998倍で動作する。
しかし、Intel TDXとGPU-CCは依然として13~27%のスループットを失い、KV-cache復元のレイテンシは2倍以上になる。
ブリッジモデルは+131%のKVストアのペナルティと34倍のモデルスローダウンを説明する。
- 参考スコア(独自算出の注目度): 6.69555823710995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GPU Confidential Computing (GPU-CC) now preserves GPU-local performance: on NVIDIA B300, BF16 matmul runs at 0.998x of non-confidential performance. Yet LLM serving under Intel TDX plus GPU-CC still loses 13-27% of throughput, and KV-cache restore latency can more than double. This paper studies that gap on two Blackwell platforms, RTX Pro 6000 and B300 HGX, and identifies its dominant cause: the confidential VM-GPU bridge, not GPU compute. We find that GPU-CC turns host/device movement into a serialized, high-setup-cost channel. Secure copies do not gain CUDA-stream concurrency within a context, asynchronous transfers block at the runtime boundary, and small crossings pay a fixed toll. This violates the assumptions of modern inference runtimes, where DMA is expected to be cheap, concurrent, and asynchronous. In vLLM dense decode, the gap closes around 44x-slower small alloc-and-copy operations; targeted patches reject alternative explanations. A scheduling flag recovers 57% of the gap, while a worker-thread drain recovers up to 92% in qualified high-concurrency runs. The same bridge model explains a +131% KV-restore penalty and a 34x model-load slowdown. Blackwell also changes the confidential tenancy unit. We qualify confidential multi-GPU NVSwitch tenants on B300, including 510 GB/s NVLink P2P inside a CVM and concurrent isolated tenants, and identify the remaining fabric-attestation gap for production confidential AI platforms.
- Abstract(参考訳): GPU-CC(GPU Confidential Computing)はGPUローカルのパフォーマンスを保護している。NVIDIA B300では、BF16 matmulが0.998倍の非機密パフォーマンスで動作する。
しかし、Intel TDXとGPU-CCのLLMは依然として13~27%のスループットを失い、KV-cache復元のレイテンシは2倍以上になる。
本稿では,2つのBlackwellプラットフォーム(RTX Pro 6000とB300 HGX)のギャップについて検討し,その主な原因として,GPU計算ではなく機密VM-GPUブリッジを挙げる。
GPU-CCは、ホスト/デバイスの動きを、シリアライズされた高セットアップコストチャネルに変える。
セキュアコピーは、コンテキスト内でCUDAストリームの並行性を得ず、ランタイム境界での非同期転送ブロック、小さなクロスは固定料金を支払う。
これは、DMAが安価で、並行性があり、非同期であるという、現代的な推論ランタイムの前提に反する。
vLLM高密度デコードでは、ギャップは44倍遅い小さなアロク・アンド・コピー操作で閉じている。
スケジュールフラグはギャップの57%を回復し、ワーカースレッドドレインは資格の高い高コンカレンシーランで92%まで回復する。
同じブリッジモデルでは、+131%のKVストアのペナルティと34倍のモデル負荷のスローダウンが説明できる。
Blackwellはシークレット・テナンシ・ユニットも変更した。
我々は、CVMと同時分離されたテナント内の510GB/sのNVLink P2Pを含む、B300上の機密マルチGPU NVSwitchテナントを認定し、生産秘密のAIプラットフォームにおける残りのファブリック-アテゲーションギャップを特定する。
関連論文リスト
- LLMQ: Efficient Lower-Precision Pretraining for Consumer GPUs [45.51664355320938]
本稿では,コモディティGPU上での3Bから32Bパラメータなど,中規模の言語モデルトレーニングのためのエンドツーエンド/C++実装を提案する。
これは、標準的な8ビットトレーニングパイプラインを実行し、追加のアルゴリズム近似なしで実行し、FLOP使用率を約50%維持する。
論文 参考訳(メタデータ) (2025-12-17T10:51:45Z) - GPU-Accelerated Interpretable Generalization for Rapid Cyberattack Detection and Forensics [0.0]
IGメカニズムは最近IEEE Transactions on Information Forensics and Securityで公開され、最先端のエビデンスベースの侵入検知を提供する。
我々は、PyTorchの再設計であるIG-GPUを紹介し、すべてのペアの交叉とサブセット評価をコモディティGPUにオフロードする。
15kレコードのNSL-KDDデータセットでは、IG-GPUはIGのマルチコアCPU実装よりも116倍のスピードアップを示している。
論文 参考訳(メタデータ) (2025-07-16T12:38:19Z) - Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。
PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文 参考訳(メタデータ) (2025-07-09T07:27:18Z) - Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
我々はDualParalと呼ばれる新しい分散推論戦略を提案する。
1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文 参考訳(メタデータ) (2025-05-27T11:55:22Z) - HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading [79.38548165722229]
HEADINFERはKVキャッシュをCPURAMにオフロードするが、GPU上のトランスフォーマー層のKVキャッシュを完全に保存する必要はない。
HEADINFERはメモリフットプリントを大幅に削減し,計算効率を向上することを示した。
論文 参考訳(メタデータ) (2025-02-18T06:26:05Z) - NEO: Saving GPU Memory Crisis with CPU Offloading for Online LLM Inference [22.24693513075852]
NEOは、注意計算の一部とKVキャッシュ状態をGPUからローカルホストCPUにオフロードするオンラインLLM推論システムである。
我々は、注意計算とKVキャッシュ状態の一部をGPUからローカルホストCPUにオフロードするオンラインLLM推論システムNEOを提案する。
論文 参考訳(メタデータ) (2024-11-02T05:15:44Z) - Endor: Hardware-Friendly Sparse Format for Offloaded LLM Inference [47.043257902725294]
本研究では, 圧縮率が高く, 減圧オーバーヘッドの少ない非ゼロ値に対して, 刈り取られたLLM重みの非構造スパースパターンを圧縮する新しいスパース形式を提案する。
一般的なHugingface Accelerateを使ったオフロード推論と比較して、EndorはOPT-66Bを1.70倍、Llama2-70Bを1.78倍加速する。
論文 参考訳(メタデータ) (2024-06-17T15:55:08Z) - DisCo-CLIP: A Distributed Contrastive Loss for Memory Efficient CLIP
Training [13.953918004371493]
DisCo-CLIPはメモリ効率のよいCLIPトレーニングアプローチである。
DisCo-CLIPは、バッチサイズ32Kまたは196KのViT-B/32モデルのコントラストトレーニングを可能にする。
論文 参考訳(メタデータ) (2023-04-17T17:58:21Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。