Fugu-MT 論文翻訳(概要): HiRo: A Compact Four-Directional Hierarchical Reservoir Token-Mixer for Efficient Image Classification

論文の概要: HiRo: A Compact Four-Directional Hierarchical Reservoir Token-Mixer for Efficient Image Classification

arxiv url: http://arxiv.org/abs/2606.15151v1
Date: Sat, 13 Jun 2026 06:44:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-16 16:21:32.944007
Title: HiRo: A Compact Four-Directional Hierarchical Reservoir Token-Mixer for Efficient Image Classification
Title（参考訳）: HiRo: 効率的な画像分類のためのコンパクトな4方向階層型貯水池トケンミキサ
Authors: Md Farhadul Islam, Ishan Thakkar, J. Todd Hastings,
Abstract要約: HiRoは、シフトウインドウ分割と階層型貯水池計算を統合したパラメータ効率の高い画像分類モデルである。画像は、重複しないパッチ(トークンとして扱われる)に分割され、線形に投影され、正規化され、2次元正弦波位置エンコーディングが強化され、その後、ローカルウィンドウ内で処理される。 1M以下のトレーニング可能なパラメータを使用するにもかかわらず、HiRoはMNIST、CIFAR-10、CIFAR-100でそれぞれ99.46%、85.57%、59.10%の精度を達成した。
参考スコア（独自算出の注目度）: 0.19116784879310025
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent image classification models must balance local feature modeling, cross-window interaction, and parameter efficiency. Many high-performing architectures rely on fully trainable token-mixers, which improve representation learning but increase parameter count, optimization complexity and computational cost. We propose a parameter-efficient image classification model called HiRo that integrates shifted-window partitioning with multi-directional hierarchical reservoir computing. Images are divided into non-overlapping patches (treated as tokens), linearly projected, normalized, and enriched with 2D sinusoidal positional encodings, then processed within local windows. Inside each window, tokens are scanned in four directions and passed through a two-stage slice-and-mix reservoir module. In the first stage, directional sequences are split into contiguous slices, each processed by its own fixed reservoir with a trainable closed-loop readout. The resulting slice outputs are summarized using the start, end, and mean representations, and then mixed by a second-stage fixed reservoir for each direction. The mixed slice representations are expanded back to the token level and fused with the first-stage outputs, after which the four directional outputs are realigned and averaged. Consecutive blocks alternate between regular and shifted windows to enable cross-window interaction, followed by layer normalization, a residual feed-forward network, and global pooling for classification. This design combines regular and shifted window partitioning with hierarchical multi-directional reservoirs to make an efficient local-to-cross-window token-mixing framework for image classification. Despite using under 1M trainable parameters and significantly lower memory and time than transformer-style baselines, HiRo also achieves 99.46%, 85.57%, and 59.10% accuracy on MNIST, CIFAR-10, and CIFAR-100, respectively.
Abstract（参考訳）: 最近の画像分類モデルは、局所的特徴モデリング、ウィンドウ間相互作用、パラメータ効率のバランスをとる必要がある。多くの高性能アーキテクチャは、表現学習を改善するがパラメータ数、最適化の複雑さ、計算コストを増加させる完全トレーニング可能なトークンミキサーに依存している。シフトウインドウ分割と多方向階層型貯水池計算を統合したHiRoと呼ばれるパラメータ効率の高い画像分類モデルを提案する。画像は、重複しないパッチ(トークンとして扱われる)に分割され、線形に投影され、正規化され、2次元正弦波位置エンコーディングが強化され、その後、ローカルウィンドウ内で処理される。各ウィンドウ内のトークンは4方向にスキャンされ、2段階のスライス・アンド・ミックス貯水モジュールを通過する。第1段階では、方向列を連続スライスに分割し、それぞれが訓練可能なクローズドループ読み出しを備えた自身の固定貯水池で処理する。得られたスライス出力は、開始、終了、平均表現を用いて要約され、各方向の第2段固定貯留層によって混合される。混合スライス表現をトークンレベルまで拡張し、第1段階出力と融合し、4つの方向出力を再調整して平均化する。整合性ブロックは、通常のウィンドウとシフトウィンドウの間を交互に切り替えて、ウィンドウ間の相互作用を可能にし、次に層正規化、残フィードフォワードネットワーク、そして分類のためのグローバルプールを行う。この設計は、正規およびシフトウィンドウ分割と階層的な多方向貯水池を組み合わせることで、画像分類のための効率的な局所-クロスウィンドウトークン-ミキシングフレームワークを作成する。 1M以下のトレーニング可能なパラメータと、トランスフォーマースタイルのベースラインよりもメモリと時間が大幅に低いにもかかわらず、HiRoはMNIST、CIFAR-10、CIFAR-100でそれぞれ99.46%、85.57%、59.10%の精度を達成した。

関連論文リスト

Latent Recurrent Transformer: Architecture Exploration, Training Strategies, and Scaling Behavior [107.2098567818173]
Latent Recurrent Transformer (LRT) は自己回帰変換器の軽量化である。 LRTは、次のトークンのリカレントメモリとして、前のトークンから高レベルなソース層隠れステートを再利用する。
論文参考訳（メタデータ） (2026-05-26T10:10:26Z)
Covariance-Aware Goodness for Scalable Forward-Forward Learning [8.12004710498018]
畳み込み設定では、Forward-Forwardメソッドは複雑なベンチマークのバックプロパゲーションが著しく低い。 3つの主要なコンポーネントを中心にしたフレームワークを提案する。 BPフリーモデルはImageNet-100で73.01%、Tiny-ImageNetで50.30%を達成した。
論文参考訳（メタデータ） (2026-05-05T23:08:00Z)
GSPN-2: Efficient Parallel Sequence Modeling [101.33780567131716]
一般化空間伝搬ネットワーク(GSPN)は2次自己アテンションを直線走査型伝搬方式に置き換えることでこの問題に対処する。 GSPN-2は、視覚アプリケーションにおけるグローバル空間コンテキストをモデル化するための新しい効率フロンティアを確立する。
論文参考訳（メタデータ） (2025-11-28T07:26:45Z)
Programmable k-local Ising Machines and all-optical Kolmogorov-Arnold Networks on Photonic Platforms [0.0]
フォトニックコンピューティングは、最適化と学習のためのエネルギー効率の高い加速を約束する。ここでは,k-local Ising最適化と光カルモゴロフ・アルノルドネットワーク(KAN)を単一のフォトニックプラットフォーム上で学習する。鍵となる考え方は、名目上線形散乱器の構造的非線形性を、ウィンドウごとの計算資源に変換することである。
論文参考訳（メタデータ） (2025-08-24T16:39:09Z)
FractMorph: A Fractional Fourier-Based Multi-Domain Transformer for Deformable Image Registration [0.6683923149620578]
クロスイメージ特徴マッチングを向上する新しい3次元デュアル並列変換器アーキテクチャであるFractMorphを提案する。軽量なU-Netスタイルのネットワークは、変換器に富んだ特徴から密度変形場を予測する。その結果、FractMorphは、全体のDice similarity Coefficient(DSC)が86.45%$、平均1構造が75.15%$、95セントのHausdorff(HD95)が1.54mathrmmm$で、最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2025-08-17T17:42:10Z)
Multiway Point Cloud Mosaicking with Diffusion and Global Optimization [74.3802812773891]
マルチウェイポイントクラウドモザイクのための新しいフレームワーク(水曜日)を紹介する。我々のアプローチの核心は、重複を識別し、注意点を洗練する学習されたペアワイズ登録アルゴリズムODINである。 4つの多種多様な大規模データセットを用いて、我々の手法は、全てのベンチマークにおいて大きなマージンで、最先端のペアとローテーションの登録結果を比較した。
論文参考訳（メタデータ） (2024-03-30T17:29:13Z)
ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding [9.144813021145039]
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。 ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
論文参考訳（メタデータ） (2024-03-22T07:32:21Z)
Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。 WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文参考訳（メタデータ） (2023-09-07T06:41:15Z)
Green Hierarchical Vision Transformer for Masked Image Modeling [54.14989750044489]
階層型視覚変換器(ViT)を用いたマスク付き画像モデリングのための効率的な手法を提案する。グループウィンドウのアテンションスキームは,ディバイド・アンド・コンカエ戦略に従って設計する。グループ化されたパッチに対する注意の全体的なコストを最小限に抑えるため、動的プログラミングアルゴリズムによるグループ化戦略をさらに改善する。
論文参考訳（メタデータ） (2022-05-26T17:34:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。