論文の概要: CloakLM: Obfuscating GPU Memory Layout to Mitigate Model Ex-filtration for Serving
- arxiv url: http://arxiv.org/abs/2606.18400v1
- Date: Tue, 16 Jun 2026 18:47:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.854166
- Title: CloakLM: Obfuscating GPU Memory Layout to Mitigate Model Ex-filtration for Serving
- Title(参考訳): CloakLM:GPUメモリレイアウトの難読化による実行時のモデル外ろ過の軽減
- Authors: Kunal Jain, Seokjin Go, Divya Mahajan,
- Abstract要約: サードパーティと共有アクセラレータインフラストラクチャにデプロイされた大規模な基盤モデルは、モデル流出の実用的なリスクに直面します。
コテナントワークロードは、物理的なコロケーションなしで、メモリマップされたインターフェースやRDMAリージョンにさらにアクセスすることができる。
ソフトウェアのみのメモリ難読化フレームワークであるClarkLMは、推論スタックのメモリ論理ビューを変更することなく、この規則性を除去する。
- 参考スコア(独自算出の注目度): 2.408411453763233
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large foundation models deployed on third-party and shared accelerator infrastructure face a practical risk of model exfiltration that existing defenses do not fully address. In common serving deployments, model providers control the VM or bare-metal serving stack but not the surrounding hardware substrate. The host to GPU interconnect, accelerator fabric, and neighboring infrastructure components remain outside the tenant's trust boundary and have been shown to be exploitable. Hermes demonstrates lossless DNN reconstruction from passive PCIe observation, while TunnelS exfiltrates HBM contents at high throughput via driver-level access without disrupting inference. Co-tenant VMs can further access memory-mapped interfaces or misconfigured RDMA regions without physical co-location. These attacks exploit a common property of ML systems: model weights are stored in large, contiguous, and repeatedly accessed memory regions, making intercepted PCIe transfers and HBM dumps rich enough to reveal model structure and parameters. We present CloakLM, a software-only memory-obfuscation framework that removes this structural regularity without changing the inference stack's logical view of memory. CloakLM combines three mechanisms: PCIe traffic shaping, inter- and intra-layer weight shuffling, and physical HBM page remapping. Authorized execution retains a valid virtual memory layout with negligible overhead, while unauthorized observers see fragmented and semantically incoherent state. CloakLM integrates with vLLM and PyTorch, requires no hardware changes, and complements confidential computing. Evaluation on distributed inference workloads using LLaMA and Qwen models shows near-native performance while significantly increasing resistance to PCIe snooping and HBM dump attacks, making inference-time model exfiltration substantially less practical.
- Abstract(参考訳): サードパーティと共有アクセラレーターインフラストラクチャにデプロイされた大規模な基盤モデルは、既存の防御が完全に対処できないようなモデル流出の実践的なリスクに直面します。
一般的なサービスデプロイメントでは、モデルプロバイダはVMやベアメタルサービススタックを制御するが、周囲のハードウェア基板はコントロールしない。
GPU相互接続、アクセラレーターファブリック、近隣のインフラストラクチャコンポーネントへのホストはテナントの信頼境界外にあり、悪用可能であることが示されている。
Hermesは受動的PCIe観測から損失のないDNN再構成を実証する一方、TunnelSは推論を妨害することなくドライバレベルのアクセスを通じて高いスループットでHBMコンテンツを出力する。
コテナントVMは、物理的なコロケーションなしでメモリマップされたインターフェイスやRDMAリージョンにさらにアクセスすることができる。
モデルウェイトは大規模で連続的で繰り返しアクセスされるメモリ領域に格納され、インターセプトされたPCIe転送とHBMダンプはモデル構造とパラメータを明らかにするのに十分な量である。
ソフトウェアのみのメモリ難読化フレームワークであるClarkLMは、推論スタックのメモリ論理ビューを変更することなく、この構造的規則性を取り除く。
CloakLMは、PCIeトラフィックシェーピング、層間および層内重量シャッフル、物理HBMページリマッピングの3つのメカニズムを組み合わせている。
認可された実行は、無視可能なオーバーヘッドで有効な仮想メモリレイアウトを保持し、許可されていないオブザーバは断片的でセマンティックに一貫性のない状態を見る。
CloakLMはvLLMとPyTorchを統合し、ハードウェアの変更を必要とせず、機密計算を補完する。
LLaMAモデルとQwenモデルを用いた分散推論ワークロードの評価は、PCIeスヌーピングやHBMダンプ攻撃に対する抵抗を著しく増加させながら、ほぼネイティブな性能を示し、推論時モデルの流出を大幅に低減する。
関連論文リスト
- Memory is Reconstructed, Not Retrieved: Graph Memory for LLM Agents [51.30250860677378]
本稿では,連想記憶グラフとアクティブな再構成機構を組み合わせたフレームワークであるMRAgentを提案する。
Cue-Tag-Contentグラフ上で実行することで,メモリアクセスに直接推論を統合する。
LoCoMoベンチマークとLongMemEvalベンチマークの実験は、強いベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-06-04T11:29:46Z) - Pomegranate: A Lightweight Compartmentalization Architecture using Virtualization Extensions [0.0]
Pomegranateは、ソースコードを最小限または全く変更することなく、既存のシステムを安全に構成するフレームワークである。
igc NICドライバを用いたLinuxネットワークスタックにおけるPomegranateの有効性を示す。
論文 参考訳(メタデータ) (2026-05-07T22:44:40Z) - Tessera: Secure, Near-Line-Rate Weight Streaming for UMA Edge Accelerators [0.0]
Tesseraは、UMAエッジアクセラレータ上のインライン、キャッシュライン重み復号化のためのリファレンスアーキテクチャである。
設計は64バイトのAXIバーストをインターセプトし、AES-256-CTRキーストリームをDRAMフェッチと並列に計算する。
理論的メモリ帯域幅天井の98.4%をテセラが達成していることを示す。
論文 参考訳(メタデータ) (2026-04-25T08:29:50Z) - DexWorldModel: Causal Latent World Modeling towards Automated Learning of Embodied Tasks [54.32016216994156]
本稿では,DINOv3特徴を生成対象として用い,視覚ノイズから相互作用意味を乱す因果潜在世界モデル(CLWM)を提案する。
メモリスケーリングを克服するため、CLWMはDual-State Test-Time Training (TTT)メモリを備えている。
EmbodiChainは、トレーニング中に物理基底軌道の無限の流れを注入することによって効率法を確立するオンラインフレームワークである。
論文 参考訳(メタデータ) (2026-04-13T03:19:36Z) - Multi-Probe Zero Collision Hash (MPZCH): Mitigating Embedding Collisions and Enhancing Model Freshness in Large-Scale Recommenders [47.3074050788206]
Multi-Probe Zero Collision Hash (MPZCH) は線形探索に基づく新しい索引付け機構である。
MPZCHは、ユーザ埋め込みのゼロ衝突を実現し、アイテム埋め込みの鮮度と品質を大幅に改善する。
このソリューションは、より広いコミュニティのためにオープンソースのTorchRecライブラリ内でリリースされている。
論文 参考訳(メタデータ) (2026-02-19T03:42:57Z) - ZipMoE: Efficient On-Device MoE Serving via Lossless Compression and Cache-Affinity Scheduling [56.88966608455977]
ZipMoEはエッジデバイスのハードウェア特性とMoEパラメータ固有の統計的冗長性との相乗効果を利用する。
ZipMoEは72.77%の推論遅延低減と6.76タイムのスループットを実現している。
論文 参考訳(メタデータ) (2026-01-29T02:51:59Z) - BOLT: Bandwidth-Optimized Lightning-Fast Oblivious Map powered by Secure HBM Accelerators [13.90111222973057]
クラウド実行環境は、パターンリークへのアクセスに対して脆弱である。
Oblivious Mapsは、アクセスパターンを隠すことによってこれを緩和するが、高いオーバーヘッドに悩まされる。
本稿では,光速OMAP加速器BOLTについて述べる。
論文 参考訳(メタデータ) (2025-09-01T19:49:21Z) - GME: GPU-based Microarchitectural Extensions to Accelerate Homomorphic Encryption [33.87964584665433]
ホモモルフィック暗号化(FHE)は、暗号化データを復号することなく処理することができる。
FHEは、平文データを使った同じ計算と比較して最大5桁のスローダウンを導入している。
本稿では,3つのキーとなるマイクロアーキテクチャ拡張と,現在のAMD CDNA GPUアーキテクチャへのコンパイル時間最適化を組み合わせたGMEを提案する。
論文 参考訳(メタデータ) (2023-09-20T01:50:43Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。