論文の概要: OTRO: Oblivious Tokenization Path with Square-Root ORAM
- arxiv url: http://arxiv.org/abs/2606.17358v2
- Date: Tue, 23 Jun 2026 01:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.218643
- Title: OTRO: Oblivious Tokenization Path with Square-Root ORAM
- Title(参考訳): OTRO:Square-Root ORAMを使った素晴らしいトークン化パス
- Authors: Jonghyun Lee, Yongqin Wang, Rachit Rajat, Daniel Wong, Mengyuan Li, Murali Annavaram,
- Abstract要約: 本稿では,遅延クリティカルなLCMサービスに適した,効率的で難解なトークン化パスOTROを提案する。
OTROは、高速なシングルアクセスルックアップのために平方根のORAMを頼りにしているが、その禁止的な$O(Nlog2N$)再構築コストは、アクセス毎に$sqrtN$である。
OTROはTTFTのオーバーヘッドを少なくとも4.5%に制限し、トークン化によるレイテンシを全TTFTの10%以下に抑え、0.5GB以上のメモリオーバーヘッドを追加する。
- 参考スコア(独自算出の注目度): 16.989159913127818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The CPU-side large language model (LLM) tokenizer is a critical security gap in LLM serving through a confidential computing stack with CPU and GPU trusted execution environments (TEEs). Tokenizers converts the prompts through table-driven lookups, and the resulting memory access patterns are a powerful source of side-channel leakage. Recent work demonstrates end-to-end recovery of user prompts from tokenizer access pattern on production Intel TDX. However, a drop-in use of the popular tree-based Oblivious RAMs (e.g., PathORAM) to prevent access-pattern leakage introduces $\sim$13$\times$ tokenizer slowdown, resulting in 10-58% higher time-to-first-token (TTFT). In this paper, we present OTRO, an efficient, oblivious tokenization path tailored to latency-critical LLM serving. OTRO relies on square-root ORAM for fast single-access lookups, but avoids its prohibitive $O(N\log^2N$) rebuild cost every $\sqrt{N}$ accesses through three key innovations. First, OTRO provides a pool of replicated square-root ORAM instances that utilize the read-only nature of tokenizer table. Second, an epoch-based rotation policy decouples accesses from rebuilds and pads each epoch with dummy accesses to its boundaries, minimizing observable information. Lastly, chunked KV-cache-aware tokenization further overlaps rebuilds with GPU prefill and minimizes the instance count. Implemented as modules in HuggingFace Tokenizers and nano-vLLM, running within a TDX-enabled CVM with an NVIDIA H100 GPU, OTRO limits TTFT overhead to at most 4.5%, keeps tokenizer-induced latency under 10\% of total TTFT, and adds less than 0.5 GB of memory overhead while reducing the tokenizer's observable leakage across various model families and sizes.
- Abstract(参考訳): CPUサイドの大規模言語モデル(LLM)トークンライザは、CPUとGPU信頼できる実行環境(TEE)を備えた機密計算スタックを通じてLLMが提供する重要なセキュリティギャップである。
トケナイザは、テーブル駆動のルックアップを通じてプロンプトを変換し、結果として生じるメモリアクセスパターンは、サイドチャネルリークの強力な源である。
最近の研究は、Intel TDXのトークン化器アクセスパターンからのユーザプロンプトのエンドツーエンド回復を実証している。
しかし、アクセスパターンのリークを防ぐために人気のツリーベースのOblivious RAM(例:PathORAM)をドロップインで使用すると、$\sim$13$\times$トークンライザのスローダウンが発生し、TTFT(Time-to-first-token)は10~58%高くなる。
本稿では,遅延クリティカルなLCMサービスに適した,効率的なトークン化パスであるOTROを提案する。
OTROは、高速なシングルアクセスルックアップのために平方根のORAMを頼りにしているが、3つの重要なイノベーションを通じてアクセスされるすべての$O(N\log^2N$)のリビルドコストを回避している。
まず、OTROは、トークン化テーブルの読み取り専用の性質を利用する、複製された平方根のORAMインスタンスのプールを提供する。
第二に、エポックベースのローテーションポリシーは、各エポックの再構築とパッドからのアクセスをダミーアクセスで切り離し、観測可能な情報を最小化する。
最後に、チャンクされたKVキャッシュ対応トークン化は、リビルドをGPUプリフィルでオーバーラップし、インスタンス数を最小限にする。
HuggingFace Tokenizersとnano-vLLMのモジュールとして実装され、NVIDIA H100 GPUでTDX対応CVM内で動作し、TTFTのオーバーヘッドを最大4.5%に制限し、トークン化によるレイテンシをTTFTの10%以下に維持し、メモリオーバーヘッドを0.5GB以下増やし、さまざまなモデルファミリやサイズにわたってトークン化の可観測リークを低減した。
関連論文リスト
- Out of the Memory Barrier: A Highly Memory Efficient Training System for LLMs with Million-Token Contexts [68.79341332280062]
長いコンテキストでの大規模言語モデル(LLM)のトレーニングは、トレーニング時間ではなく、GPUメモリの異常なオーバーヘッドによって厳しく制限される。
この障壁に直面するメモリ効率の高いトレーニングシステムOOMBを紹介します。
本手法では,オンザフライアクティベーション・リコンピュテーションを備えたチャンク・リカレント・トレーニング・フレームワークを用いて,一定のアクティベーションメモリフットプリントを維持する。
論文 参考訳(メタデータ) (2026-02-02T13:52:40Z) - Memory-Efficient Acceleration of Block Low-Rank Foundation Models on Resource Constrained GPUs [11.45717904490388]
トランスフォーマーベースの基盤モデルの最近の進歩は、多くのタスクのデフォルト選択となった。
その急速に成長するサイズは、単一のGPUに完全なモデルを適合させることがますます難しくなり、計算コストが禁じられる。
ブロック低ランク(BLR)圧縮技術は、重み行列のコンパクト表現を学習することでこの問題に対処する。
論文 参考訳(メタデータ) (2025-12-24T00:41:13Z) - Vec-LUT: Vector Table Lookup for Parallel Ultra-Low-Bit LLM Inference on Edge Devices [13.483546044414581]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされている。
LUTベースの推論は、並列推論中にメモリ帯域幅を弱める。
Vec-LUTはベースラインを最大4.2倍に上回る。
論文 参考訳(メタデータ) (2025-12-06T14:14:01Z) - Stream: Scaling up Mechanistic Interpretability to Long Context in LLMs via Sparse Attention [1.5866317687968634]
Sparse Tracingは、ダイナミックなスパースアテンションを利用して、長時間のコンテキストアテンションパターンを効率的に分析する手法である。
ほぼ直線時間で,頭部ごとのスパークアテンションマスクを推定する,コンパイル可能な階層型プルーニングアルゴリズムであるStreamを提案する。
本手法は, テラバイトのキャッシュを使わずに, 注意パターンを解析し, 情報の流れをトレースする実用的なドロップインツールを提供する。
論文 参考訳(メタデータ) (2025-10-22T09:42:29Z) - SlimInfer: Accelerating Long-Context LLM Inference via Dynamic Token Pruning [3.502168555273189]
SlimInferは、フォワードパス中にあまり重要でないプロンプトトークンを直接プルーニングすることで推論を加速することを目的としている。
SlimInferは最大$mathbf2.53times$ time-to-first-token(TTFT)スピードアップと$mathbf1.88times$ end-to-end latency reduction for LLaMA3.1-8B-Instructを実現する。
論文 参考訳(メタデータ) (2025-08-08T16:42:38Z) - SkipDecode: Autoregressive Skip Decoding with Batching and Caching for
Efficient LLM Inference [17.947904697850433]
バッチ推論とKeyValueキャッシュのためのトークンレベルの早期終了メソッドであるSkipDecodeを提案する。
これは、各シーケンス位置のバッチ内の各トークンに対して特異レベル出口を設定することで、以前の制約を克服する。
また、イグジットポイントの単調な減少を保証するため、前のトークンに対してKVキャッシュを再コンパイルする必要がなくなる。
論文 参考訳(メタデータ) (2023-07-05T19:59:09Z) - H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large
Language Models [110.06476624089679]
メモリフットプリントを大幅に削減する新しいKVキャッシュの実装手法を提案する。
我々のアプローチは、トークンのごく一部が、注意点の計算において、ほとんどの価値に寄与する、という観察に基づいている。
我々は,最近のトークンとH$のバランスを動的に保持するKVキャッシュ消去ポリシーであるヘビーヒッター(H$O)を提案する。
論文 参考訳(メタデータ) (2023-06-24T20:11:14Z) - 1$\times$N Block Pattern for Network Sparsity [90.43191747596491]
我々は,この制限を破るために,ブロック間隔パターン(ブロックプルーニング)を1時間で定義する新しい概念を提案する。
このパターンはMobileNet-V2の上位1の精度でフィルタプルーニングよりも約3.0%改善されている。
また、重み付けによるCortex-A7 CPUの56.04msの推論も得る。
論文 参考訳(メタデータ) (2021-05-31T05:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。