論文の概要: AgileOS: A GPU Operating System Layer for Protected CUDA Services
- arxiv url: http://arxiv.org/abs/2606.06697v1
- Date: Thu, 04 Jun 2026 20:34:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.436535
- Title: AgileOS: A GPU Operating System Layer for Protected CUDA Services
- Title(参考訳): AgileOS: 保護されたCUDAサービスのためのGPUオペレーティングシステムレイヤ
- Authors: Zhuoping Yang, Yiyu Shi, Alex Jones, Peipei Zhou,
- Abstract要約: 本稿では,保護サービスのためのGPUオペレーティングシステム層であるAgileOSの初期設計とプロトタイプのスコープについて述べる。
サービス状態とモジュールインターフェースを保護するため、AgileOSは、ユーザー割り当てを保護されたモジュール/MMIO範囲から分離するGPUメモリ管理モデルを定義している。
AgileOSはモジュール化され、柔軟性があり、様々な保護されたサービスとcuFFTやPyTorchといった既存のライブラリをサポートする。
- 参考スコア(独自算出の注目度): 5.074019267683835
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern GPU applications increasingly interact with storage systems, network devices, vendor libraries, and GPU-resident services rather than executing only isolated compute kernels. This shift creates a need for operating-system-like protection around GPU services, where service metadata, device queues, memory-mapped I/O regions, and library-internal state should not be directly exposed to untrusted application kernels. However, today's CUDA programming model, by default, still gives each application direct ownership of its CUDA context, device pointers, runtime handles, module loading path, and kernel launches, leaving protected GPU services to build their own ad hoc interfaces and isolation mechanisms. This paper presents the initial design and prototype scope of AgileOS, a GPU operating-system layer for protected CUDA services. AgileOS virtualizes CUDA at the library boundary: applications link against client-side CUDA Runtime, Driver, and selected library shims, while a trusted runtime worker owns the real CUDA context and mediates supported operations. To protect service state and module interfaces, AgileOS also defines a GPU memory-management model that separates user allocations from protected module/MMIO ranges, using pointer validation and memory access guards via PTX injection. AgileOS is modularized and flexible, supporting a range of protected services and existing libraries such as cuFFT and PyTorch. The prototype includes client-side interceptors, worker-side CUDA handlers, virtualized CUDA object tables, protected AgileOS modules, a GPU memory manager that separates user allocations from protected module/MMIO ranges, selected trusted library adapters, and the PTX-level kernel memory guard.
- Abstract(参考訳): 現代のGPUアプリケーションは、独立した計算カーネルのみを実行するのではなく、ストレージシステム、ネットワークデバイス、ベンダーライブラリ、GPU常駐サービスと対話する傾向にある。
このシフトは、サービスメタデータ、デバイスキュー、メモリマップされたI/Oリージョン、ライブラリ内部の状態を信頼できないアプリケーションカーネルに直接公開するべきではない、GPUサービスを中心としたOSライクな保護の必要性を生み出している。
しかし、今日のCUDAプログラミングモデルは、デフォルトでは、各アプリケーションがCUDAコンテキスト、デバイスポインタ、ランタイムハンドル、モジュールローディングパス、カーネルローンチを直接所有し、独自のアドホックインターフェースと分離メカニズムを構築するために保護されたGPUサービスを残している。
本稿では,保護されたCUDAサービスのためのGPUオペレーティングシステム層であるAgileOSの初期設計とプロトタイプのスコープについて述べる。
AgileOSはCUDAをライブラリ境界で仮想化する:アプリケーションはクライアントサイドのCUDAランタイム、ドライバ、選択されたライブラリシムとリンクし、信頼できるランタイムワーカーは実際のCUDAコンテキストを所有し、サポート対象の操作を仲介する。
サービス状態とモジュールインターフェースを保護するため、AgileOSは、PTXインジェクションを介してポインタバリデーションとメモリアクセスガードを使用して、保護されたモジュール/MMIO範囲からユーザアロケーションを分離するGPUメモリ管理モデルも定義している。
AgileOSはモジュール化され、柔軟性があり、様々な保護されたサービスとcuFFTやPyTorchといった既存のライブラリをサポートする。
プロトタイプには、クライアント側のインターセプタ、ワーカー側のCUDAハンドラ、仮想化されたCUDAオブジェクトテーブル、保護されたAgileOSモジュール、保護されたモジュール/MMIO範囲からユーザ割り当てを分離するGPUメモリマネージャ、選択された信頼できるライブラリアダプタ、PTXレベルのカーネルメモリガードが含まれている。
関連論文リスト
- MemLoRA: Distilling Expert Adapters for On-Device Memory Systems [71.32550994522738]
メモリ拡張大言語モデル(LLM)は対話中に顕著な一貫性を示す。
MemLoRAは、小さなVision-Language Modelを統合する新しいメモリシステムである。
VLM統合MemLoRA-Vはキャプションベースのアプローチで大幅に改善されている。
論文 参考訳(メタデータ) (2025-12-04T12:56:30Z) - GPU-Initiated Networking for NCCL [0.7990599798388804]
従来のGPU通信は、CPUがすべての通信操作をオーケストレーションするホスト開始モデルに従っている。
本稿では,GINアーキテクチャ,設計,セマンティクスについて述べる。
論文 参考訳(メタデータ) (2025-11-19T03:36:03Z) - AutoSAGE: Input-Aware CUDA Scheduling for Sparse GNN Aggregation (SpMM/SDDMM) and CSR Attention [52.20940151628735]
AutoSAGEは入力ごとにタイリングとマッピングを選択するインプット対応スケジューラである。
Reddit OGBN-Productsでは、カーネルレベルの最大4.7倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-11-17T18:25:51Z) - AIvailable: A Software-Defined Architecture for LLM-as-a-Service on Heterogeneous and Legacy GPUs [0.5863360388454261]
低コストで高可用性のLLM-as-a-Service(LLM)プラットフォームであるAIvailableを紹介します。
ソフトウェア定義のアプローチを使用して、異種およびレガシGPUノード上でLLMを実行する。
統合されたクライアントインターフェースを備えており、すべてのデプロイされたLLMとのシームレスなインタラクションを可能にします。
論文 参考訳(メタデータ) (2025-11-06T14:19:57Z) - Scalable GPU-Based Integrity Verification for Large Machine Learning Models [4.301162531343759]
我々は、CPUとGPUプラットフォーム間の整合性保護を標準化することで、分散機械学習を強化するセキュリティフレームワークを提案する。
提案手法は,GPUアクセラレータ上での大規模なMLモデル実行と直接的に整合性検証を行う。
私たちは、基盤となるCPUやGPUインフラストラクチャに関係なく、エンタープライズチームがデプロイできるハードウェアに依存しない基盤を提供します。
論文 参考訳(メタデータ) (2025-10-27T23:45:21Z) - FIDESlib: A Fully-Fledged Open-Source FHE Library for Efficient CKKS on GPUs [0.7146800600221728]
FIDESlibは、最初のオープンソースのサーバサイドCKKS GPUライブラリである。
ブートストラッピングでは、FIDESlibはAVX最適化OpenFHE実装よりも70倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-07-07T08:51:14Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - L2MAC: Large Language Model Automatic Computer for Extensive Code Generation [52.81694565226513]
トランスフォーマーベースの大規模言語モデル(LLM)は、基盤となるトランスフォーマーアーキテクチャの固定コンテキストウィンドウによって制約される。
本稿では,L2MACを提案する。L2MACは,LLMをベースとした汎用型自動計算機(von Neumann Architecture)フレームワークで,長期的かつ一貫した出力生成を実現する。
論文 参考訳(メタデータ) (2023-10-02T16:55:19Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。