論文の概要: MPX: A Unified Systolic Array for Matrix and Polynomial Multiplication
- arxiv url: http://arxiv.org/abs/2606.16394v1
- Date: Mon, 15 Jun 2026 08:29:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:05.047023
- Title: MPX: A Unified Systolic Array for Matrix and Polynomial Multiplication
- Title(参考訳): MPX: 行列と多項式の乗算のための統一シストリックアレイ
- Authors: George Alexakis, Dimitrios Schoinianakis, Giorgos Dimitrakopoulos,
- Abstract要約: 多項式乗算は完全同相暗号(FHE)とポスト量子暗号(PQC)の基本核である
最近の取り組みはNTT計算を既存のマトリックスエンジンにマッピングし、暗号処理のためのAIハードウェアの再利用を可能にしている。
行列乗算と直接乗算の両方を同じハードウェアファブリック内でサポートするデュアルマルチモードアレイMPXを提案する。
- 参考スコア(独自算出の注目度): 0.3186130813218338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Polynomial multiplication is a fundamental kernel in Fully Homomorphic Encryption (FHE) and post-quantum cryptography (PQC) and is commonly accelerated through Number Theoretic Transforms (NTTs). To avoid the cost of designing dedicated cryptographic accelerators, recent efforts have mapped NTT computations onto existing systolic matrix engines, enabling the reuse of AI hardware for cryptographic workloads. In this work, we take the opposite approach. We observe that the wavefront dataflow of systolic arrays naturally aligns with the accumulation pattern of polynomial multiplication and leverage this correspondence to design MPX, a dual-mode systolic array that supports both matrix multiplication and direct polynomial multiplication within the same hardware fabric. Experimental results show that extending a conventional systolic array with this dual-mode capability requires only 20% additional area and introduces negligible power overhead during matrix-multiplication execution. In polynomial-multiplication mode, MPX achieves more than 1.2x lower latency compared to NTT-based polynomial multiplication on systolic matrix engines.
- Abstract(参考訳): 多項式乗算(Polynomial multiplication)は、FHE(Fully Homomorphic Encryption)とPQC(Post-quantum Cryptography)の基本的なカーネルであり、Number Theoretic Transforms (NTTs)を通じて一般的に加速される。
専用の暗号アクセラレータを設計するコストを回避するため、最近の取り組みでは、NTT計算を既存のシストリックマトリックスエンジンにマッピングし、暗号化ワークロードに対するAIハードウェアの再利用を可能にしている。
この作業では、反対のアプローチを取ります。
本稿では,行列乗算と直多項式乗算の両方をサポートするデュアルモード・シストリック・アレイであるMPXの設計に,多項式乗算の蓄積パターンと自然に一致することを観察する。
実験結果から, 従来のシストリックアレイをこの二重モードで拡張するには20%の追加面積が必要であり, 行列乗算実行時に無視可能な電力オーバーヘッドが生じることがわかった。
多項式乗算モードでは、MPXはシストリクス行列エンジン上のNTTベースの多項式乗算に比べて1.2倍以上のレイテンシを実現する。
関連論文リスト
- Block encoding of sparse matrices with a periodic diagonal structure [67.45502291821956]
周期的な対角構造を持つスパース行列を符号化するための明示的な量子回路を提供する。
本手法の様々な応用は, 微分問題を解く文脈で論じる。
論文 参考訳(メタデータ) (2026-02-11T07:24:33Z) - PRISM: Distribution-free Adaptive Computation of Matrix Functions for Accelerating Neural Network Training [47.80717552769429]
本稿では,行列関数の計算アルゴリズムを高速化するフレームワークであるPRISM(Polynomial-fitting and Randomized Iterative Sketching for Matrix function)を提案する。
PRISMは適応近似とランダムなスケッチを組み合わせ、各イテレーションにおいて、スケッチされた最小二乗問題を介して現在のスペクトルに代理する。
従来の方法とは異なり、PRISMは明示的なスペクトル境界や特異値推定を必要とせず、進化するスペクトルに自動的に適応する。
論文 参考訳(メタデータ) (2026-01-29T18:55:46Z) - NeuMatC: A General Neural Framework for Fast Parametric Matrix Operation [75.91285900600549]
我々は、一般的なパラメトリック行列演算タスクをエレガントに扱うtextbftextitNeural Matrix Computation Framework (NeuMatC)を提案する。
NeuMatCは、パラメータから対応する行列演算結果への低ランクかつ連続的なマッピングを教師なしで学習する。
合成と実世界の両方のデータセットの実験結果は、NeuMatCの有望な性能を示している。
論文 参考訳(メタデータ) (2025-11-28T07:21:17Z) - Joint Transmit and Pinching Beamforming for Pinching Antenna Systems (PASS): Optimization-Based or Learning-Based? [89.05848771674773]
MISO (Multiple-input Single-output) フレームワークを提案する。
それは複数の導波路で構成されており、多数の低コストアンテナ(PA)を備えている。
PAの位置は、大規模パスと空間の両方にまたがるように再構成することができる。
論文 参考訳(メタデータ) (2025-02-12T18:54:10Z) - HF-NTT: Hazard-Free Dataflow Accelerator for Number Theoretic Transform [2.4578723416255754]
多項式乗法は、完全同型暗号(FHE)など、多くのアプリケーションにおける基本的な演算の1つである。
Numberoretic Transform (NTT) は、適応可能な乗算を向上するための有効なツールであるが、NTT加速器を高速に生成する方法が欠如している。
本稿では,新しいNTTアクセラレータであるHF-NTTを導入し,ビット反転操作を不要とするデータ移動戦略を提案する。
論文 参考訳(メタデータ) (2024-10-07T07:31:38Z) - Fast, Scalable, Energy-Efficient Non-element-wise Matrix Multiplication on FPGA [10.630802853096462]
現代のニューラルネットワーク(NN)アーキテクチャは、膨大な数の乗算演算に依存している。
本稿ではFPGA上の高スループット,スケーラブル,エネルギー効率の非要素的行列乗算ユニットを提案する。
AMUを使用すると、FPGAベースの量子ニューラルネットワーク(QNN)アクセラレーターの最先端ソリューションよりも最大9倍高いスループットと112倍高いエネルギー効率が得られる。
論文 参考訳(メタデータ) (2024-07-02T15:28:10Z) - Simple Multigraph Convolution Networks [49.19906483875984]
既存のマルチグラフ畳み込み法では、複数のグラフ間のクロスビューの相互作用を無視するか、あるいは標準的なクロスビュー演算子によって非常に高い計算コストが生じる。
本稿では,まずエッジレベルやサブグラフレベルのトポロジを含むマルチグラフから一貫したクロスビュートポロジを抽出し,その後,生のマルチグラフと一貫したトポロジに基づいて拡張を行う,シンプルなマルチ畳み込みネットワーク(SMGCN)を提案する。
理論上、SMGCNは標準的なクロスビュー拡張ではなく、一貫した拡張のトポロジを利用して、信頼性の高いクロスビュー空間メッセージパッシングを行い、標準拡張の複雑さを効果的に低減する。
論文 参考訳(メタデータ) (2024-03-08T03:27:58Z) - KyberMat: Efficient Accelerator for Matrix-Vector Polynomial Multiplication in CRYSTALS-Kyber Scheme via NTT and Polyphase Decomposition [20.592217626952507]
CRYSTAL-Kyber (Kyber) は、標準化プロセス中に選択された暗号鍵カプセル化機構 (KEM) の1つである。
本稿では,Kyberアーキテクチャのレイテンシとスループットの制約に対する最適化について述べる。
論文 参考訳(メタデータ) (2023-10-06T22:57:25Z) - Large Scale Distributed Linear Algebra With Tensor Processing Units [0.0]
我々は、機械学習用に開発されたアプリケーション固有のチップであるGoogle Processing Units (TPU) を、大規模で高密度な線形代数スーパーコンピュータにキュレートした。
マトリックス・マルチ・ユニット(MXU)がランタイムを支配しており、素晴らしいスケーリング、パフォーマンス、生のサイズを実現している。
論文 参考訳(メタデータ) (2021-12-16T16:55:22Z) - Multi-Objective Matrix Normalization for Fine-grained Visual Recognition [153.49014114484424]
双線形プールは細粒度視覚認識(FGVC)において大きな成功を収める
近年,行列パワー正規化は双線形特徴量において2次情報を安定化させることができることが示されている。
両線形表現を同時に正規化できる効率的な多目的行列正規化法(MOMN)を提案する。
論文 参考訳(メタデータ) (2020-03-30T08:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。