論文の概要: UtVAA: Ultra-tiny Vision Transformer with Affix Attention for Mobile Image Classification
- arxiv url: http://arxiv.org/abs/2606.14735v1
- Date: Tue, 02 Jun 2026 12:53:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-21 20:00:42.757586
- Title: UtVAA: Ultra-tiny Vision Transformer with Affix Attention for Mobile Image Classification
- Title(参考訳): UtVAA:モバイル画像分類のための接尾辞付き超小型視覚変換器
- Authors: Romiyal George, Sathiyamohan Nishankar, Selvarajah Thuseethan, Roshan G. Ragel,
- Abstract要約: UtVAAは、厳密な計算予算の下で効率的な視覚認識のために設計された超小型ビジョントランスフォーマーアーキテクチャである。
Affix Attentionブロックは、深度方向の局所的特徴抽出、線形自己注意、空間依存性モデリングのためのコーディネートアテンション、および軽量な第三次融合戦略を組み合わせた新しいアフィクスアテンションブロックを備えている。
拡張性のあるTiny、Medium、Largeで実装されており、最小モデルは204.67Kパラメータと53.95M FLOPを含む。
- 参考スコア(独自算出の注目度): 1.6566053195631467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have demonstrated strong representation capability in image classification. However, their quadratic self-attention complexity and large parameter counts limit deployment on resource-constrained mobile and edge devices. This paper introduces UtVAA, an ultra-tiny Vision Transformer architecture designed for efficient visual recognition under strict computational budgets. It incorporates a novel Affix Attention block that combines depthwise-pointwise local feature extraction, linear self-attention, coordinate attention for spatial dependency modelling, and a lightweight ternary fusion strategy to integrate local and global representations. In addition, Dilated Bottleneck blocks expand the receptive field using dilated depthwise separable convolutions while maintaining low FLOPs and stable optimisation through residual connections. UtVAA is implemented in scalable Tiny, Medium, and Large variants, with the smallest model containing 204.67K parameters and 53.95M FLOPs. Experimental results on CIFAR-10, CIFAR-100, PlantVillage-Tomato and SLIF-Tomato datasets show that UtVAA achieves competitive accuracy within a sub-million-parameter regime. Overall, the results demonstrate that transformer-based vision models can be redesigned into ultra-tiny architectures without significant loss in discriminative performance, making UtVAA suitable for mobile and edge deployment. Code is available at https://github.com/romiyal/UtVAA
- Abstract(参考訳): 視覚変換器(ViT)は画像分類において強力な表現能力を示した。
しかし、その二次的な自己注意の複雑さと大きなパラメータは、リソースに制約のあるモバイルおよびエッジデバイスへのデプロイメントを制限する。
本稿では,厳密な計算予算下での効率的な視覚認識を目的とした超小型ビジョントランスフォーマーアーキテクチャであるUtVAAを紹介する。
これは、深度方向の局所特徴抽出、線形自己注意、空間依存モデリングのための協調的注意、および局所的およびグローバルな表現を統合するための軽量な第三次融合戦略を組み合わせた新しいアフィクス・アテンション・ブロックである。
さらに、Dilated Bottleneckブロックは、低いFLOPを保ち、残差接続による安定な最適化を維持しながら、拡張された深さ方向に分離可能な畳み込みを用いて受容界を拡大する。
UtVAAはスケーラブルなTiny、Medium、Largeで実装されており、最小モデルは204.67Kパラメータと53.95M FLOPを含む。
CIFAR-10, CIFAR-100, PlantVillage-tomato, SLIF-tomatoのデータセットによる実験結果から, UtVAAはサブミリオンパラメータ内での競合精度が得られた。
全体として、トランスフォーマーベースの視覚モデルは、識別性能に大きな損失を伴わずに超ティニーアーキテクチャに再設計可能であることが示され、モバイルおよびエッジデプロイメントに適したUtVAAが実現された。
コードはhttps://github.com/romiyal/UtVAAで入手できる。
関連論文リスト
- GlimmerNet: A Lightweight Grouped Dilated Depthwise Convolutions for UAV-Based Emergency Monitoring [0.0]
GlimmerNetは、機能再結合から受容界の多様性を分離する原理に基づいて構築された超軽量畳み込みネットワークである。
最新のベースラインよりもたった31Kパラメータと29%のFLOPを削減したGlimmerNetは、UAV中心のAv2データセットで0.966の、最先端の重み付きF1スコアを新たに達成した。
論文 参考訳(メタデータ) (2025-12-08T10:24:19Z) - CoSwin: Convolution Enhanced Hierarchical Shifted Window Attention For Small-Scale Vision [2.558238597112103]
CoSwinは、階層的なシフトウインドウの注意を局所的な畳み込み機能学習で強化する、新しい機能融合アーキテクチャである。
CIFAR-10, CIFAR-100, MNIST, SVHN, Tiny ImageNetなどの画像分類ベンチマークを用いてCoSwinの評価を行った。
論文 参考訳(メタデータ) (2025-09-10T19:43:16Z) - CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。
ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures [96.00848293994463]
本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。
我々のモデルは、スパース入力を効率的に処理し、ロバストなグローバル処理能力を実証するために設計されている。
評価の結果,VRWKVは画像分類におけるViTの性能を超え,高速化とメモリ使用量の削減を図っている。
論文 参考訳(メタデータ) (2024-03-04T18:46:20Z) - VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Compressing Vision Transformers for Low-Resource Visual Learning [7.662469543657508]
Vision Transformer(ViT)とその変種は、画像分類、オブジェクト検出、セマンティックセグメンテーションといったタスクにおいて最先端の精度を提供する。
これらのモデルは大規模で計算量が多いため、モバイルおよびエッジシナリオへのデプロイメントが制限される。
我々は,蒸留,プルーニング,量子化といった一般的なモデル圧縮技術を活用して,視覚変換器をエッジに持ち込むための一歩を踏み出したい。
論文 参考訳(メタデータ) (2023-09-05T23:33:39Z) - SeaFormer++: Squeeze-enhanced Axial Transformer for Mobile Visual Recognition [29.522565659389183]
本研究では,モバイル視覚認識のための圧縮強化軸変換器 (SeaFormer) を提案する。
モバイルフレンドリーなライバルとTransformerベースのライバルに勝って、パフォーマンスが良く、レイテンシも低い。
論文 参考訳(メタデータ) (2023-01-30T18:34:16Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。