論文の概要: FuseFSS: Efficient Secure LLM Inference with Function Secret Sharing
- arxiv url: http://arxiv.org/abs/2606.09551v1
- Date: Mon, 08 Jun 2026 14:30:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.26526
- Title: FuseFSS: Efficient Secure LLM Inference with Function Secret Sharing
- Title(参考訳): FuseFSS: 関数シークレット共有によるセキュアなLLM推論
- Authors: Yuhan Ma, Yong Li, Stefan Schmid,
- Abstract要約: 演算子ごとのプロトコル設計を単一のコンパイルパイプラインで置き換えるコンパイラであるFuseFSSを提案する。
現在の最先端のFSSベースのGPUセキュア推論と比較すると、FuseFSSは精度を保ちながら、1.24times$--$1.50times$エンドツーエンドのスピードアップを達成する。
- 参考スコア(独自算出の注目度): 10.153726524753628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Two-server secure inference allows a client to query a hosted large language model (LLM) without revealing prompts or embeddings. Recent GPU systems based on function secret sharing (FSS) make linear layers efficient, but fixed-point nonlinearities and helper operations remain a bottleneck because each operator is typically implemented as a bespoke protocol with its own comparisons, wrap-around corrections, and preprocessing material. We present FuseFSS, a compiler that replaces per-operator protocol design with a single compilation pipeline. For each scalar fixed-point operator, a compact specification lists its interval partition, low-degree arithmetic pieces, and required predicate bits. The compiler emits two batched FSS evaluations on the public masked value: one packed comparison that returns all predicate bits, and one vector interval lookup that returns the active coefficients and constants. Compared to the current state-of-the-art FSS-based GPU secure inference, FuseFSS preserves accuracy while achieving a $1.24\times$--$1.50\times$ end-to-end speedup and reducing online communication by $9\%$--$16\%$ on BERT and GPT-style models; preprocessing is also lighter, with $14\%$--$23\%$ lower key-generation time and $20\%$--$24\%$ smaller keys.
- Abstract(参考訳): 2サーバのセキュアな推論により、クライアントはプロンプトや埋め込みを明らかにすることなく、ホストされた大規模言語モデル(LLM)をクエリできる。
関数秘密共有(FSS)に基づく最近のGPUシステムは、線形層を効率よくするが、固定点非線形性とヘルパー演算は、通常、各演算子は、独自の比較、ラップアラウンド補正、前処理材料で、bespokeプロトコルとして実装されるため、ボトルネックのままである。
演算子ごとのプロトコル設計を単一のコンパイルパイプラインで置き換えるコンパイラであるFuseFSSを提案する。
各スカラー固定点演算子について、コンパクト仕様はインターバル分割、低次算術ピース、必要な述語ビットを列挙する。
コンパイラは、すべての述語ビットを返す1つの充填された比較と、アクティブ係数と定数を返す1つのベクトル間隔ルックアップという、2つのバッチされたFSS評価を公開マスク値で出力する。
現在の最先端のFSSベースのGPUセキュア推論と比較すると、FuseFSSは1.24\times$--1.50\times$ end-to-end speedupを達成し、オンライン通信を9\%$--16\%$ BERTとGPTスタイルのモデルで削減しながら精度を維持している。
関連論文リスト
- From Patches to Trajectories: Privileged Process Supervision for Software-Engineering Agents [56.31499185764872]
教師の長い軌道上の監督された微調整(SFT)は、オープンソフトウェアエンジニアリング(SWE)エージェントに調査と推論を浸透させる主要な方法である。
本稿では,P2T (Patches-to-Trajectories) を提案する。P2T (Patches-to-Trajectories) は,P2T (Patches-to-Trajectories) において,P2T (Patches-to-Trajectories) とP2T (Patches-to-Trajectories) の2つの最適化法である。
論文 参考訳(メタデータ) (2026-05-21T04:54:55Z) - Different Prompts, Different Ranks: Prompt-aware Dynamic Rank Selection for SVD-based LLM Compression [3.291633155351422]
PARSE は $textbfP$rompt-$textbfA$ware $textbfR$ank $textbfS$election as $textbfE$xperts in SVD-compressed LLMs のトレーニング後のフレームワークである。
LLaMA-7Bの圧縮比0.6で平均タスク精度を最大10%改善し、2.5$times$プリフィルと2.4$times$ネイティブSVD実行によるデコードスピードアップを実現している。
論文 参考訳(メタデータ) (2026-05-09T00:02:33Z) - Sequential vs. Simultaneous Entanglement Swapping under Optimal Link-Layer Control [1.8829359083448898]
接続レスパケットスイッチング量子ネットワークアーキテクチャは、シーケンシャルエンタングルメントスワップを通じて、マルチホップパスにまたがる絡み合いを分散する。
固定鎖長$n = 4$で各リンクが固定強化学習ポリシーによって制御されることを示す。
シーケンススワップは、$T_cmathrmext/= 25$以下で終了し、$T_cmathrmext/= 50$でリカバリを開始する。
論文 参考訳(メタデータ) (2026-05-05T17:59:22Z) - Efficient Arithmetic-and-Comparison Homomorphic Encryption with Space Switching [15.580543805873466]
ホモモルフィック暗号化(英語版) (FHE) は復号化せずに暗号化されたデータの計算を可能にする。
統一されたフレームワークにおける算術演算と比較演算の両方を効率的にサポートする既存のスキームは存在しない。
FVスタイルのスキーム内で算術と比較をシームレスに統合する空間切替法を提案する。
論文 参考訳(メタデータ) (2026-04-21T18:12:37Z) - Scaling Attention via Feature Sparsity [50.64995497733461]
超長期のコンテキストにトランスフォーマーをスケールすることは、自己注意のコスト$O(n2 d)$コストによってボトルネックとなる。
本稿では,高次元表現性を維持するために,クエリとキーを$k$sparseコードとして表現するスパース特徴注意法を提案する。
GPT-2とQwen3の事前トレーニングで、SFAは密度の高いベースラインにマッチし、最高2.5タイムのスピードを向上し、FLOPとKVキャッシュを50%近く削減した。
論文 参考訳(メタデータ) (2026-03-17T08:41:50Z) - Privacy-Preserving Inference for Quantized BERT Models [13.36359444231145]
量子化は浮動小数点演算を低精度整数計算に変換することで有望な解を提供する。
本研究では, 層単位での微細な量子化手法を提案し, 1ビットの重み付き全連結層をセキュアな設定で支持する。
論文 参考訳(メタデータ) (2025-08-03T07:52:08Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - MORSE: An Efficient Homomorphic Secret Sharing Scheme Enabling Non-Linear Operation [37.45826289062067]
ホモモルフィックシークレット共有(HSS)は、2つのサーバが暗号化されたデータを直接ローカルに実行し、その結果を共有形式で取得することを可能にする。
Paillier ベースの HSS ソリューションは、乗法準同型をシームレスに達成し、通信コストを少なくする。
非線形演算が可能な効率的な同型秘密共有方式であるMORSEを提案する。
論文 参考訳(メタデータ) (2024-10-09T03:29:50Z) - Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。
実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。
本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-13T02:44:05Z) - Beta-CROWN: Efficient Bound Propagation with Per-neuron Split
Constraints for Complete and Incomplete Neural Network Verification [151.62491805851107]
私たちは、ニューロン毎の分割を完全にエンコードできるバウンド伝搬ベースの検証器である$beta$-crownを開発した。
Beta$-CROWNはLPベースのBaB法よりも3桁近い速さで堅牢性検証が可能です。
BaBを早期に終了することにより、不完全な検証にも使用できます。
論文 参考訳(メタデータ) (2021-03-11T11:56:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。