論文の概要: Communication-Efficient Verifiable Attention for LLM Inference
- arxiv url: http://arxiv.org/abs/2606.16352v1
- Date: Mon, 15 Jun 2026 07:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.162152
- Title: Communication-Efficient Verifiable Attention for LLM Inference
- Title(参考訳): LLM推論のための通信効率よく検証可能な注意
- Authors: Ziqun Chen, Ming Wu, Michael Heinrich, Jason Zeng, Huiying Lan, Tianwei Zhang, Rui Tan,
- Abstract要約: 本稿では,検証可能なLLM推論を高速化するための通信効率の高いTEE-GPUアテンション(textscVeriAttn)を提案する。
textscVeriAttnは、線形計算と非線形計算の両方をGPUにオフロードし、TEEは検証を実行する。
デコーディングでは、キー値キャッシュが利用可能なGPUメモリを超えると、textscVeriAttnはTEEとGPU間で注意を分割し、繰り返しキー値転送を減らす。
- 参考スコア(独自算出の注目度): 10.639156521036965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computation integrity of remote large language model (LLM) serving can be questionable. For conventional deep neural networks (DNNs), the existing TEE-shielded DNN partitioning (TSDP) approach uses Trusted Execution Environment (TEE) to compute non-linear components and verify the integrity of linear components offloaded to an untrusted GPU. However, directly applying TSDP to Transformer-based LLMs incurs significant TEE computation and TEE-GPU communication overhead. This paper presents Communication-efficient TEE-GPU Attention (\textsc{VeriAttn}) for accelerating verifiable LLM inference. \textsc{VeriAttn} offloads both linear and non-linear computations of attention to the GPU, while TEE performs verification. Moreover, for prefill, \textsc{VeriAttn} uses a two-level pipeline to overlap data movement, TEE pre-/post-processing, and GPU computation. For decoding, when the key-value cache exceeds available GPU memory, \textsc{VeriAttn} partitions attention across TEE and GPU to reduce repeated key-value transfers. Evaluation on an Intel TDX platform shows that \textsc{VeriAttn} achieves 2.60-3.38$\times$ and 3.86-5.42$\times$ acceleration over TSDP for 6k-token prompts and 10k-token outputs during prefill and decoding, respectively.
- Abstract(参考訳): リモート大言語モデル(LLM)の計算完全性には疑問の余地がある。
従来のディープニューラルネットワーク(DNN)では、既存のTEEシールド付きDNNパーティショニング(TSDP)アプローチでは、Trusted Execution Environment(TEE)を使用して、非線形コンポーネントを計算し、信頼できないGPUにオフロードされた線形コンポーネントの整合性を検証する。
しかし,Transformer ベースの LLM に直接 TSDP を適用すると,TEE 計算や TEE-GPU 通信のオーバーヘッドが発生する。
本稿では,検証可能なLLM推論を高速化するための通信効率の高いTEE-GPUアテンション(\textsc{VeriAttn})を提案する。
\textsc{VeriAttn} は線形計算と非線形計算の両方をGPUにオフロードし、TEEは検証を実行する。
さらに、プリフィルのために、 \textsc{VeriAttn} は2レベルパイプラインを使用してデータの移動、TEE前/後処理、GPU計算をオーバーラップする。
デコーディングでは、キー値キャッシュが利用可能なGPUメモリを超えると、 \textsc{VeriAttn} は TEE と GPU 間で注意を分割し、繰り返しキー値転送を減らす。
Intel TDXプラットフォーム上での評価では、プリフィルとデコードの間に、それぞれTSDP上の2.60-3.38$\times$と3.86-5.42$\times$Accelerationを6k-tokenプロンプトと10k-token出力で達成している。
関連論文リスト
- Profiling-Driven Adaptive Distributed Transformer Inference on Embedded Edge Deployment [60.442064966340524]
本稿では、WiFi経由で接続されたNVIDIA Jetson Orin Nanoデバイスに関するプロトタイプ研究を行う。
主な発見は、主なボトルネックは、ネットワーク帯域幅だけでなく、通信中のCPU-GPUステージングである。
実験によると、この戦略はフルテンソル交換と比較して遅延を65%-77%減らし、エネルギー消費を34%-52%減らしている。
論文 参考訳(メタデータ) (2026-05-25T10:39:28Z) - Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。
PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文 参考訳(メタデータ) (2025-07-09T07:27:18Z) - Intra-DP: A High Performance Collaborative Inference System for Mobile Edge Computing [67.98609858326951]
Intra-DPはモバイルデバイス上でのディープニューラルネットワーク(DNN)に最適化された高性能な協調推論システムである。
推論毎のレイテンシを最大50%削減し、最先端のベースラインと比較してエネルギー消費量を最大75%削減する。
評価の結果,DP内の遅延は,最先端のベースラインと比較して最大50%,エネルギー消費は最大75%減少することがわかった。
論文 参考訳(メタデータ) (2025-07-08T09:50:57Z) - NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。
我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。
提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文 参考訳(メタデータ) (2025-05-28T20:43:10Z) - Characterization of GPU TEE Overheads in Distributed Data Parallel ML Training [7.236249885667945]
信頼できるコンピューティング(CC)または信頼できる実行エンクレーブ(TEE)は、クラウドでセキュアなコンピューティングを実現するための最も一般的なアプローチである。
NVIDIAによるGPU TEEの導入により、モデルウェイトやデータをクラウドプロバイダにリークすることなく、マシンラーニング(ML)モデルをトレーニングすることが可能になった。
本稿では,GPU TEEを用いた分散データ並列(DDP)MLトレーニングの実行に伴う性能オーバーヘッドについて,詳細な解析を行った。
論文 参考訳(メタデータ) (2025-01-20T22:23:50Z) - Fastrack: Fast IO for Secure ML using GPU TEEs [7.758531952461963]
GPUベースのTrusted Execution Environments (TEE)はセキュアで高性能なソリューションを提供する。
CPU間通信のオーバーヘッドは性能を著しく損なう。
本稿では、Nvidia H100 TEEプロトコルを分析し、3つの重要なオーバーヘッドを特定する。
我々は,1)直接GPU TEE通信,2)並列化認証,3)PCI-e伝送による重複復号化を最適化したFastrackを提案する。
論文 参考訳(メタデータ) (2024-10-20T01:00:33Z) - Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。
本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文 参考訳(メタデータ) (2022-05-23T12:35:18Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。