論文の概要: FrequencyFormer: A Co-Designed Sensor-to-Processor Pipeline for Frequency-Domain Vision Transformer Inference
- arxiv url: http://arxiv.org/abs/2606.19574v1
- Date: Wed, 17 Jun 2026 20:28:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.524551
- Title: FrequencyFormer: A Co-Designed Sensor-to-Processor Pipeline for Frequency-Domain Vision Transformer Inference
- Title(参考訳): 周波数変換器:周波数依存型視覚変換器推論のための共設計型センサ・プロセッサパイプライン
- Authors: Chengwei Zhou, Ovishake Sen, Xuming Chen, Rishith Paramasivam, Shaahin Angizi, Swarup Bhunia, Baibhab Chatterjee, Gourav Datta,
- Abstract要約: 本稿では,効率的なViT推論のためのセンサ・ツー・プロセッサ・パイプラインである FrequencyFormer を提案する。
パイプラインは28.8TOPS/Wを実現し、通信エネルギーを230倍、センサ側の総エネルギーを2.22倍削減する。
- 参考スコア(独自算出の注目度): 14.28810702708295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying vision transformers (ViTs) on sensor-edge systems is limited not only by on-device compute, but also by the energy and bandwidth required to transmit high-dimensional image data from the sensor to the processor. While in-sensor and near-sensor computing reduce this cost through early feature extraction, existing methods often provide only modest compression. We observe that the frequency domain provides a naturally compact representation of visual information and can be exploited at the sensor level to reduce sensor-to-processor data movement. Building on this insight, we present FrequencyFormer, a co-designed sensor-to-processor pipeline for efficient ViT inference. FrequencyFormer includes: (1) a multi-scale DCT tokenizer that compresses a 224x224 image into compact frequency-domain tokens, achieving up to 128x reduction in off-chip data volume with modest accuracy loss; (2) a LUT-based near-sensor hardware implementation that leverages fixed DCT coefficients for multiplier-free, energy- and area-efficient tokenization; and (3) a modified MIPI-based low-power communication architecture that further reduces transfer energy. FrequencyFormer serves as a drop-in replacement for standard ViT patch embedding and remains compatible with pretrained backbones across classification, detection, and segmentation tasks. The pipeline achieves 28.8 TOPS/W, reduces communication energy by 230x, and lowers total sensor-side energy by 2.22x, demonstrating frequency-domain tokenization as a scalable foundation for in-sensor ViT deployment.
- Abstract(参考訳): センサエッジシステムへの視覚変換器(ViT)の展開は、デバイス上の計算だけでなく、センサーからプロセッサへの高次元画像データの送信に必要なエネルギーと帯域幅によって制限される。
インセンサーとニアセンサー・コンピューティングは、初期の特徴抽出によってこのコストを低減させるが、既存の手法は控えめな圧縮しか提供しないことが多い。
我々は、周波数領域が視覚情報の自然なコンパクトな表現を提供し、センサレベルで利用することで、センサ・プロセッサ間のデータ移動を減らすことができることを観察した。
この知見に基づいて、効率的なViT推論のためのセンサ・ツー・プロセッサ・パイプラインである FrequencyFormer を提案する。
周波数Formerは,(1)224x224画像をコンパクトな周波数領域のトークンに圧縮し,最大128倍の精度でオフチップデータ量削減を実現するマルチスケールDCTトークン装置,(2)乗算・エネルギー・面積効率のトークン化に固定DCT係数を利用するLUTベースの近接センサハードウェア実装,(3)転送エネルギーをさらに削減するMIPIベースの低電力通信アーキテクチャを備える。
FrequencyFormerは、標準のViTパッチの埋め込みのドロップイン代替として機能し、分類、検出、セグメンテーションタスクにわたる事前訓練されたバックボーンと互換性がある。
パイプラインは28.8TOPS/Wを実現し、通信エネルギーを230倍減らし、センサ側の総エネルギーを2.22倍減らし、センサー内ViT展開のスケーラブルな基盤として周波数領域トークン化を示す。
関連論文リスト
- ReVeal-MT: A Physics-Informed Neural Network for Multi-Transmitter Radio Environment Mapping [9.43653276377036]
本稿では,マルチソースPDE残基をニューラルネットワーク損失関数に統合した新しいPINNであるemphReVeal-MTを提案する。
ReVeal-MTは、農耕地や郊外の環境にまたがるARA無線リビングラボからの実測値を用いて検証されている。
その結果,ReVeal-MTはマルチトランスミッタのシナリオでかなりの精度のゲインが得られることがわかった。
論文 参考訳(メタデータ) (2025-11-22T23:33:06Z) - Extracting Range-Doppler Information of Moving Targets from Wi-Fi Channel State Information [1.3581639904351783]
3つの重要な革新を通じて両課題に対処する新しい信号処理手法を提案する。
提案手法は、商用のIntel WiFi AX211を用いて、移動目標のレンジドプラ推定におけるcmレベルの精度を実現する。
論文 参考訳(メタデータ) (2025-08-04T18:10:18Z) - Over-the-Air Multi-Sensor Inference with Neural Networks Using Memristor-Based Analog Computing [13.5346836945515]
本研究では,メムリスタ型アナログ計算を用いたマルチセンサ無線推論システムを提案する。
センサーの計算能力が限られているため、ネットワークのフロントエンドの機能は中央のデバイスに送信される。
また,$L_p$-normにインスパイアされた合成関数をベースとした,トレーニング可能なオーバー・ザ・エアセンサ融合手法を提案する。
論文 参考訳(メタデータ) (2025-01-17T15:14:58Z) - RS-vHeat: Heat Conduction Guided Efficient Remote Sensing Foundation Model [59.37279559684668]
本稿では,効率的なマルチモーダルリモートセンシング基盤モデルであるRS-vHeatを紹介する。
具体的には、RS-vHeatは、O(N1.5)$の複雑さを持つ熱伝導演算子(HCO)と、大域的受容場を適用している。
注意に基づくリモートセンシング基礎モデルと比較して、メモリ使用量を84%削減し、FLOPを24%削減し、スループットを2.7倍改善する。
論文 参考訳(メタデータ) (2024-11-27T01:43:38Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection [53.842568573251214]
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。
我々のWBANetは、それぞれのデータセットで98.33%、96.65%、96.62%の正確な分類(PCC)を達成している。
論文 参考訳(メタデータ) (2024-07-18T04:36:10Z) - PixelRNN: In-pixel Recurrent Neural Networks for End-to-end-optimized
Perception with Neural Sensors [42.18718773182277]
従来の画像センサは高速フレームレートで高解像度画像をデジタル化し、さらなる処理のためにセンサーから送信する必要がある大量のデータを生成する。
我々は、純粋なバイナリ演算を用いて、センサ上の時間的特徴を符号化する効率的なリカレントニューラルネットワークアーキテクチャ、PixelRNNの処理を開発する。
PixelRNNは、従来のシステムと比較して、センサから送信されるデータ量を64倍に削減し、手ジェスチャー認識や唇読解タスクの競合精度を提供する。
論文 参考訳(メタデータ) (2023-04-11T18:16:47Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - A reconfigurable neural network ASIC for detector front-end data
compression at the HL-LHC [0.40690419770123604]
ニューラルネットワークのオートエンコーダモデルを放射線耐性ASICに実装して、損失のあるデータ圧縮を行うことができる。
これは、粒子物理学アプリケーション用に設計されたニューラルネットワークの耐放射線性オンディテクタASIC実装である。
論文 参考訳(メタデータ) (2021-05-04T18:06:23Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Near-chip Dynamic Vision Filtering for Low-Bandwidth Pedestrian
Detection [99.94079901071163]
本稿では、ダイナミックビジョンセンサ(DVS)を用いた歩行者検出のための新しいエンドツーエンドシステムを提案する。
我々は、複数のセンサがローカル処理ユニットにデータを送信し、検出アルゴリズムを実行するアプリケーションをターゲットにしている。
我々の検出器は450ミリ秒毎に検出を行うことができ、総合的なテストF1スコアは83%である。
論文 参考訳(メタデータ) (2020-04-03T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。