論文の概要: MIVE: A Minimalist Integer Vector Engine for Softmax LayerNorm and RMSNorm Acceleration
- arxiv url: http://arxiv.org/abs/2606.17781v1
- Date: Tue, 16 Jun 2026 10:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.394081
- Title: MIVE: A Minimalist Integer Vector Engine for Softmax LayerNorm and RMSNorm Acceleration
- Title(参考訳): MIVE:Softmax LayerNormとRMSNormアクセラレーションのためのミニマリスト整数ベクトルエンジン
- Authors: Kosmas Alexandridis, Giorgos Dimitrakopoulos,
- Abstract要約: LayerNorm、RMSNorm、Softmaxなどの非線形ベクトル正規化処理は、重要なハードウェアボトルネックとなる可能性がある。
既存のアクセラレータは通常、専用のハードウェアブロックを使用してこれらの機能を実装し、重複したリソースと非効率なシリコン利用につながる。
統一データパス内で3つの操作全てを実行することができるプログラマブルアーキテクチャであるミニマリストベクトルエンジン(MIVE)を提案する。
- 参考スコア(独自算出の注目度): 5.564319540410472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth of Large Language Models (LLMs) has intensified the need for specialized hardware accelerators that can satisfy stringent inference latency and power constraints. Although matrix multiplications dominate the overall computational workload, non-linear vector normalization operations, such as LayerNorm, RMSNorm and Softmax can become critical hardware bottlenecks. Existing accelerators typically implement these functions using dedicated hardware blocks, leading to duplicated resources and inefficient silicon utilization. To address this limitation, we propose a Minimalist Integer Vector Engine (MIVE), a programmable architecture capable of executing all three operations within a unified datapath. By exploiting common computational patterns across LayerNorm, RMSNorm and Softmax the proposed vector engine maximizes hardware sharing while reducing implementation overhead. Physical ASIC implementation results show that MIVE provides comprehensive multi-function support while achieving higher area and hardware efficiency than most state-of-the-art standalone accelerators.
- Abstract(参考訳): LLM(Large Language Models)の急速な成長により、厳密な推論遅延と電力制約を満たす特別なハードウェアアクセラレータの必要性が高まっている。
行列乗算は全体の計算作業量を支配するが、LayerNorm、RMSNorm、Softmaxといった非線形ベクトル正規化演算はハードウェアのボトルネックとなる。
既存のアクセラレータは通常、専用のハードウェアブロックを使用してこれらの機能を実装し、重複したリソースと非効率なシリコン利用につながる。
この制限に対処するため,MIVE (Minimalist Integer Vector Engine) を提案する。
LayerNorm、RMSNorm、Softmaxにまたがる一般的な計算パターンを利用することで、提案するベクトルエンジンはハードウェア共有を最大化し、実装オーバーヘッドを低減させる。
物理的ASIC実装の結果から、MIVEは最先端のスタンドアロンアクセラレータよりも高い面積とハードウェア効率を達成しつつ、包括的な多機能サポートを提供することが示された。
関連論文リスト
- AutoVecCoder: Teaching LLMs to Generate Explicitly Vectorized Code [69.84692701646769]
AutoVecCoderは、大規模言語モデルに自動明示的ベクトル化機能を持たせるために設計された新しいフレームワークである。
自動データ合成パイプラインであるVecPromptは、ドメイン固有の固有の知識を注入する。
強化学習フレームワークであるVecRLは、コード生成と実行効率を一致させる。
このフレームワークでトレーニングされたAutoVecCoder-8Bは、SimdBenchのSSEおよびAVXサブセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-05-18T07:33:15Z) - Efficient Matrix Implementation for Rotary Position Embedding [50.45885099010382]
RoPE(Rotary Position Embedding)は、言語、視覚、および3Dドメインにわたるモダントランスフォーマーアーキテクチャのコアコンポーネントとなっている。
ベクトル演算を統一行列変換に置き換える,数学的に等価だが計算効率のよいRoPEの再構成法であるRoMEを提案する。
実験により、RoMEはオペレーターレベルとフルモデルレベルの両方で相当な加速を提供することが示された。
論文 参考訳(メタデータ) (2026-04-10T00:17:47Z) - TriGen: NPU Architecture for End-to-End Acceleration of Large Language Models based on SW-HW Co-Design [4.251127523213289]
TriGenは、ソフトウェア・ハードウエアの共同設計を通じてリソース制約のある環境向けに設計された、新しいNPUアーキテクチャである。
我々は,TriGenが平均2.73倍の性能向上を実現し,ベースラインのNPU設計よりも52%少ないメモリ転送を実現し,精度を損なうことを示した。
論文 参考訳(メタデータ) (2026-02-13T14:28:31Z) - xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。
xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。
xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文 参考訳(メタデータ) (2025-10-16T13:53:47Z) - COMMET: orders-of-magnitude speed-up in finite element method via batch-vectorized neural constitutive updates [0.0]
アーキテクチャを再設計し,高コスト更新を高速化するオープンソース有限要素フレームワークを導入する。
FE COMMETは、バッチ化およびベクトル化評価をサポートする新しいアセンブリアルゴリズム、自動微分に取って代わる計算グラフ最適化デリバティブ、MPIによる分散メモリ並列性をサポートする。
論文 参考訳(メタデータ) (2025-10-01T13:31:56Z) - Leveraging ASIC AI Chips for Homomorphic Encryption [12.209134343914537]
ホモモルフィック暗号化(HE)は強力なプライバシー保証を提供するが、平文での計算よりもはるかに多くのリソースを必要とする。
このレイテンシ問題を緩和するためにアクセラレータが登場したが、ASICのコストが高い。
HEプリミティブは、すでにクラウドに広くデプロイされているTPUのような既存のASIC AIアクセラレータ上で、AIオペレータに変換され、アクセラレーションされることを示す。
論文 参考訳(メタデータ) (2025-01-13T04:08:14Z) - SoftmAP: Software-Hardware Co-design for Integer-Only Softmax on Associative Processors [1.8999662338457695]
ソフトマックスやレイヤーノルムのような非線形作用素は、量子化に対する感度のためにボトルネックのままである。
In-Memory Compute (IMC) ハードウェアを用いた整数のみの低精度Softmaxを実装したソフトウェアハードウェアの共同設計手法であるSoftmAPを提案する。
論文 参考訳(メタデータ) (2024-11-26T20:00:54Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。