論文の概要: Low-Energy Reduced RISC-V Instruction Subset Processor for Tsetlin Machine Inference at the Edge
- arxiv url: http://arxiv.org/abs/2606.19964v1
- Date: Thu, 18 Jun 2026 09:05:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.753037
- Title: Low-Energy Reduced RISC-V Instruction Subset Processor for Tsetlin Machine Inference at the Edge
- Title(参考訳): エッジにおけるTsetlinマシン推論のための低エネルギーRISC-V命令サブセットプロセッサ
- Authors: Chanda Gupta, Sanidhya Bhatia, Shaurya Priyadarshi, Himani Panwar, Rishad Shafik, Sudip Roy,
- Abstract要約: Tsetlin Machine (TM) は、単純なビットワイズ演算と有限状態オートマトンに依存する論理ベースの機械学習アプローチである。
最近の研究はTMに基づくコプロセッサと加速器の設計に焦点を当てている。
ドメイン固有のRISC-VマイクロプロセッサアーキテクチャとTM推論に適した設計フローを提案する。
- 参考スコア(独自算出の注目度): 1.2285549481077163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tsetlin Machine (TM) is a logic-based machine learning approach that relies on simple bitwise operations and finite-state automata, which makes it attractive for edge AI deployments. Recent work has focused on co-processor and accelerator designs based on Tsetlin Machines (TMs). Although these designs achieve high performance, they typically depend on tightly coupled interfaces, microcode-style programming, and external host processors, limiting flexibility and ease of programming. In this work, we present a domain-specific RISC-V microprocessor architecture and design flow tailored for TM inference. Leveraging the modular structure of RISC-V, we design a reduced instruction subset processor that retains programmability while targeting improved performance and lower energy consumption for TM workloads. Instruction profiling is employed to guide instruction reduction, followed by datapath and control path simplifications tailored to TM inference. Both the baseline RV32IM core and the proposed reduced core are evaluated across multiple datasets and compared with Binarized Neural Networks (BNNs), which serve as a hardware-efficient baseline due to their reliance on bitwise operations during inference. Results show that TM achieves comparable or higher accuracy (e.g., up to 88.18% on CIFAR-2 compared to 60.0% for BNN) while reducing execution time by up to 98% across multiple datasets. Furthermore, the proposed design achieves an average $29.7\times$ reduction in energy consumption, demonstrating its effectiveness for programmable and efficient edge AI systems.
- Abstract(参考訳): Tsetlin Machine(TM)は、論理ベースの機械学習アプローチで、単純なビットワイズ操作と有限状態オートマトンに依存しているため、エッジAIデプロイメントに魅力がある。
最近の研究は、Tsetlin Machines (TMs)に基づくコプロセッサとアクセラレータの設計に焦点を当てている。
これらの設計は高い性能を達成するが、通常は密結合したインターフェース、マイクロコードスタイルのプログラミング、外部ホストプロセッサに依存し、柔軟性とプログラミングの容易さを制限している。
本研究では,ドメイン固有のRISC-VマイクロプロセッサアーキテクチャとTM推論に適した設計フローを提案する。
RISC-Vのモジュール構造を活用することで,TMワークロードの性能向上と消費電力削減を目標とし,プログラム性を維持した命令サブセットプロセッサを設計する。
命令の削減を誘導するために命令プロファイリングを使用し、続いてデータパスと制御パスをTM推論に合わせて単純化する。
ベースラインRV32IMコアと提案した縮小コアは、複数のデータセットで評価され、推論中のビットワイズ操作に依存するため、ハードウェア効率のよいベースラインとして機能するBNN(Binarized Neural Networks)と比較される。
その結果、TMは、CIFAR-2で最大88.18%、BNNでは60.0%、CIFAR-2では最大88.18%、複数のデータセットで最大98%の精度で実行時間を短縮できることがわかった。
さらに、提案した設計は、平均29.7ドルのエネルギー消費の削減を実現し、プログラム可能で効率的なエッジAIシステムの有効性を実証している。
関連論文リスト
- A Reconfigurable Multiplier Architecture for Error-Resilient Applications in RISC-V Core [0.0]
本稿では、エネルギー効率の良いニューラルネットワーク推論とエッジAIアプリケーションを対象として、RISC-Vコアに統合された実行時再構成可能な乗算器アーキテクチャを提案する。
提案した乗算器は、専用mulscrを用いて複数の精度レベルを持つ精度および近似計算の適応性をサポートする。
提案手法は,1.89DMIPS/MHzの計算性能を維持しつつ,それぞれ44%-52%,62%-68%の消費電力削減を実現している。
論文 参考訳(メタデータ) (2026-05-09T08:14:09Z) - Ge$^\text{2}$mS-T: Multi-Dimensional Grouping for Ultra-High Energy Efficiency in Spiking Transformer [84.8831358775386]
スパイキングニューラルネットワーク(SNN)は、ニューラルネットワーク(ANN)よりも優れたエネルギー効率を提供する
ANN-SNN ConversionやSpatial-Temporal Backpropagation (STBP)といった既存のパラダイムは、固有の制限に悩まされている。
Ge$text2$mS-Tを提案する。これは時間的・空間的・ネットワーク的構造次元にまたがるグループ計算を実装した新しいアーキテクチャである。
論文 参考訳(メタデータ) (2026-04-10T02:58:46Z) - BWTA: Accurate and Efficient Binarized Transformer by Algorithm-Hardware Co-design [71.97035034203275]
バイナライゼーションにおけるゼロ点歪みを解析し,BWTA量子化方式を提案する。
本稿では,Smooth Multi-Stage Quantizationを提案し,レベルワイド・デグラデーション・ストラテジーとMagnitude Alignment Projection Factorを組み合わせた。
実験の結果、BWTAはTransformerベースのモデルに対して、GLUEでは平均3.5%、タスクでは2%未満の精度でフル精度のパフォーマンスにアプローチしていることがわかった。
論文 参考訳(メタデータ) (2026-04-05T04:25:07Z) - GANGR: GAN-Assisted Scalable and Efficient Global Routing Parallelization [0.6117371161379208]
グローバルルーティングは電子設計自動化(EDA)における重要な段階である
本稿では,より効率的な並列化を実現するために,WGAN(Wasserstein Generative Network)を提案する。
提案アルゴリズムは最新のISPD'24コンテストのベンチマークでテストされ、最先端ルータと比較して、ルーティング品質は0.002%しか低下せず、40%の低下を示した。
論文 参考訳(メタデータ) (2025-11-21T00:32:33Z) - UnIT: Scalable Unstructured Inference-Time Pruning for MAC-efficient Neural Inference on MCUs [1.9626657740463982]
UnIT (Unstructured Inference-Time pruning) は、推論中に不要な乗算(MAC)操作を動的に識別し、スキップする軽量な手法である。
プルーニング決定を軽量比較に変換し、乗算をしきい値チェックと近似分割に置き換える。
UNITは11.02%から82.03%のMAC削減、27.30%から84.19%の高速推論、27.33%から84.38%の低エネルギー化を実現している。
論文 参考訳(メタデータ) (2025-07-10T16:12:06Z) - Intra-DP: A High Performance Collaborative Inference System for Mobile Edge Computing [67.98609858326951]
Intra-DPはモバイルデバイス上でのディープニューラルネットワーク(DNN)に最適化された高性能な協調推論システムである。
推論毎のレイテンシを最大50%削減し、最先端のベースラインと比較してエネルギー消費量を最大75%削減する。
評価の結果,DP内の遅延は,最先端のベースラインと比較して最大50%,エネルギー消費は最大75%減少することがわかった。
論文 参考訳(メタデータ) (2025-07-08T09:50:57Z) - Dynamic Tsetlin Machine Accelerators for On-Chip Training at the Edge using FPGAs [0.3440236962613469]
本稿では,Deep Neural Networks (DNN) の代替として,動的Tsetlin Machine (DTM) トレーニングアクセラレータを提案する。
DTMは、より少ない乗算累積で微分計算を欠いた訓練を行う。
提案された加速器は、Watt毎の毎秒2.54倍のギガ演算(GOP/s/W)を提供し、次の同等の設計よりも6倍少ない電力を使用する。
論文 参考訳(メタデータ) (2025-04-28T13:38:53Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - ESSOP: Efficient and Scalable Stochastic Outer Product Architecture for
Deep Learning [1.2019888796331233]
行列ベクトル乗算(MVM)とベクトルベクトル外積(VVOP)は、ディープニューラルネットワーク(DNN)のトレーニングに関連する2つの最も高価な演算である。
DNNの重み更新において,多くの最先端ネットワークで要求される活性化機能を備えたSCに効率的な手法を導入する。
我々のアーキテクチャは、乱数を再使用し、ビットシフトスケーリングによって特定のFP乗算演算を置き換えることで計算コストを削減する。
14nm技術ノードにおけるESSOPのハードウェア設計は、高度にパイプライン化されたFP16乗算器と比較して、ESSOPは82.2%、93.7%エネルギー効率が良いことを示している。
論文 参考訳(メタデータ) (2020-03-25T07:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。