論文の概要: Operator Fusion for LLM Inference on the Tensix Architecture
- arxiv url: http://arxiv.org/abs/2606.09879v1
- Date: Wed, 03 Jun 2026 02:48:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:57.996345
- Title: Operator Fusion for LLM Inference on the Tensix Architecture
- Title(参考訳): 有限構造上のLLM推論のための演算子融合
- Authors: Qingbo Wu, Ke Li, Wenzhu Wang, Jie Yu, Ruian Zhang, Lili Liu,
- Abstract要約: 本研究では,TenstorrentのTensixアーキテクチャ上でのTransformerモデルのデバイス上での推論について述べる。
RMSNormは、自己アテンションおよびFFNにおける行列乗法と融合し、メモリバウンドおよび計算バウンド演算子のバック・ツー・バック実行を可能にする。
- 参考スコア(独自算出の注目度): 13.215957873912181
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This study addresses on-device inference bottlenecks of Transformer models on Tenstorrent's Tensix architecture and proposes an operator fusion strategy that enhances data locality. RMSNorm is fused with matrix multiplication in self-attention and in the FFN, enabling back-to-back execution of memory-bound and compute-bound operators in on-chip SRAM to significantly reduce DRAM reads/writes of intermediate results and scheduling overhead. To support multi-core parallelism, a NoC-based multicast mechanism is leveraged in which row/column master nodes efficiently distribute inputs and weights across the core mesh, alleviating DRAM bandwidth contention. Experiments on the Wormhole platform with Qwen2.5-0.5B, Qwen3-0.6B, and Qwen3-4B show up to 37.44% latency reduction for attention and 15.89% for MLP, with up to 7.91% reduction per decoder layer, while Pearson Correlation Coefficient (PCC) remains above 98.75%, confirming significant end-to-end efficiency gains under numerical consistency.
- Abstract(参考訳): 本研究では,TenstorrentのTensixアーキテクチャ上でのTransformerモデルのデバイス上での推論ボトルネックに対処し,データ局所性を高める演算子融合戦略を提案する。
RMSNormは、自己アテンションおよびFFNにおける行列乗算と融合し、オンチップSRAMにおけるメモリバウンドおよび計算バウンド演算子のバック・ツー・バック実行を可能にし、中間結果のDRAM読み込み/書き込みとスケジュールオーバーヘッドを大幅に削減する。
マルチコア並列性をサポートするために、行/列マスターノードがコアメッシュのインプットと重みを効率よく分散し、DRAM帯域幅の競合を緩和するNoCベースのマルチキャスト機構を利用する。
Qwen2.5-0.5B、Qwen3-0.6B、Qwen3-4BによるWormholeプラットフォームの実験では、注意のために37.44%、MLPが15.89%、デコーダ層当たり7.91%、Pearson correlation Coefficient (PCC) が98.75%以上であり、数値的一貫性の下でのエンド・ツー・エンドの効率向上が確認されている。
関連論文リスト
- BWTA: Accurate and Efficient Binarized Transformer by Algorithm-Hardware Co-design [71.97035034203275]
バイナライゼーションにおけるゼロ点歪みを解析し,BWTA量子化方式を提案する。
本稿では,Smooth Multi-Stage Quantizationを提案し,レベルワイド・デグラデーション・ストラテジーとMagnitude Alignment Projection Factorを組み合わせた。
実験の結果、BWTAはTransformerベースのモデルに対して、GLUEでは平均3.5%、タスクでは2%未満の精度でフル精度のパフォーマンスにアプローチしていることがわかった。
論文 参考訳(メタデータ) (2026-04-05T04:25:07Z) - Training Large Reasoning Models Efficiently via Progressive Thought Encoding [63.254758972725654]
大規模推論モデル(LRM)は複雑な問題に優れるが、効率にとって重要な障壁に直面している。
本稿では,パラメータ効率のよい微調整手法であるProgressive Thoughtを紹介する。
論文 参考訳(メタデータ) (2026-02-18T20:03:38Z) - JTok: On Token Embedding as another Axis of Scaling Law via Joint Token Self-modulation [46.64215658042213]
補助埋め込みテーブルから得られる変調ベクトルを用いてトランスフォーマー層を拡大するジョイント・トケン(JTok)とジョイント・トケン(JTok-M)の混合を導入する。
これらのベクトルは、軽量な要素演算によってバックボーンを変調し、無視可能なFLOPのオーバーヘッドを発生させる。
我々のアプローチは、検証損失を継続的に減らし、ダウンストリームタスクのパフォーマンスを大幅に改善します。
論文 参考訳(メタデータ) (2026-01-31T16:15:18Z) - EdgeFlex-Transformer: Transformer Inference for Edge Devices [2.1130318406254074]
視覚変換器(ViT)の圧縮・高速化を目的とした軽量で効果的な多段最適化パイプラインを提案する。
本手法は,アクティベーションプロファイリング,メモリ対応プルーニング,選択的混合精度実行,アクティベーション対応量子化(AWQ)を組み合わせることで,コストのかかるリトレーニングやタスク固有の微調整を必要とせずに,モデルのメモリフットプリントを削減する。
CIFAR-10の実験では、完全に最適化されたモデルはピークメモリ使用量の76%削減と6倍のレイテンシを実現し、元のFP32ベースラインと比較して精度を維持または改善している。
論文 参考訳(メタデータ) (2025-12-17T21:45:12Z) - CHIME: Chiplet-based Heterogeneous Near-Memory Acceleration for Edge Multimodal LLM Inference [19.989162649002274]
エッジMLLM推論のためのチップレットベースの異種ニアメモリ高速化であるCHIMEを提案する。
FastVLM (0.6B/1.7B) とMobileVLM (1.7B/3B) では、CHIMEは54倍のスピードアップと最大246倍のエネルギー効率を達成する。
論文 参考訳(メタデータ) (2025-12-12T03:59:36Z) - Serving Large Language Models on Huawei CloudMatrix384 [28.88558053380112]
従来のAIクラスタは、計算強度、メモリ帯域幅、チップ間通信、レイテンシの制限に直面している。
本稿では,Huawei CloudMatrixを紹介する。Huawei CloudMatrixは,プロダクショングレードのCloudMatrix384スーパーノードで実現された次世代AIアーキテクチャである。
384 Ascend 910 NPUと192 Kunpeng CPUを超広帯域統一バス(UB)ネットワークを介して相互接続し、直接通信とリソースの動的プールを可能にする。
論文 参考訳(メタデータ) (2025-06-15T03:41:34Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [54.53508601749513]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - Optimizing the Deployment of Tiny Transformers on Low-Power MCUs [12.905978154498499]
この作業は、商用MCU上でのエンコーダTiny Transformersの柔軟性とマルチプラットフォームデプロイメントの実現と最適化を目的としている。
我々のフレームワークは、データの再利用を最大化し、重要な注意ブロックにデータマーシャリング操作を避けるために、カーネルの最適化ライブラリを提供する。
MHSA深度優先のタイリング方式はメモリピークを最大6.19倍に減らし、融合重み付けはランタイムを1.53倍減らし、パラメータ数を25%減らすことを示した。
論文 参考訳(メタデータ) (2024-04-03T14:14:08Z) - CodedPaddedFL and CodedSecAgg: Straggler Mitigation and Secure
Aggregation in Federated Learning [86.98177890676077]
本稿では, 階層化デバイスの効果を緩和する線形回帰のための2つの新しい符号付きフェデレーションラーニング手法を提案する。
最初のスキームであるCodedPaddedFLは、従来のFLのプライバシレベルを維持しながら、ストラグリングデバイスの効果を緩和する。
第2のスキームであるCodedSecAggは、モデル反転攻撃に対するストラグラーレジリエンスと堅牢性を提供する。
論文 参考訳(メタデータ) (2021-12-16T14:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。