論文の概要: Spatial-Aware Reduction Framework: Towards Efficient and Faithful Visual State Space Models
- arxiv url: http://arxiv.org/abs/2606.19932v1
- Date: Thu, 18 Jun 2026 08:31:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.731403
- Title: Spatial-Aware Reduction Framework: Towards Efficient and Faithful Visual State Space Models
- Title(参考訳): 空間認識型リダクションフレームワーク - 効率的かつ忠実なビジュアルステート・スペース・モデルを目指して-
- Authors: Jindi Lv, Aoyu Li, Yuhao Zhou, Zheng Zhu, Xiaofeng Wang, Qing Ye, Yueqi Duan, Wentao Feng, Jiancheng Lv,
- Abstract要約: STORMは空間対応のトークン還元フレームワークである。
空間単位上の構造演算に還元を再構成する。
様々なビジョンのMambaバックボーンにまたがって最先端のプルーニング精度を実現する。
- 参考スコア(独自算出の注目度): 71.59431204970339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mamba demonstrates strong efficiency in modeling long visual sequences. However, when token reduction is applied to structurally enhanced Mamba variants, these models exhibit a severe performance collapse. We attribute this degradation to the spatially agnostic nature of existing reduction methods, which violate the two-dimensional structural premise required by the selective scanning mechanism. In this work, we propose STORM, a spatial-aware token reduction framework designed to maintain structural integrity throughout the compression process. STORM reformulates reduction into a structured operation on spatial units, enforcing localized constraints to maintain both grid topology and neighborhood coherence. As a plug-and-play module, STORM equips existing reduction pipelines with explicit spatial awareness without any training. Empirical results demonstrate that STORM achieves state-of-the-art pruning accuracy across diverse vision Mamba backbones under training-free settings. Notably, STORM delivers a substantial accuracy recovery on VMamba, outperforming prior methods by up to 63.3\% in top-1 accuracy. Meanwhile, STORM incurs only a 1.0\% accuracy drop on PlainMamba, achieving performance comparable to ViT.
- Abstract(参考訳): マンバは、長い視覚的シーケンスをモデリングする際の強い効率を示す。
しかし、構造的に強化されたマンバ変種にトークン還元を適用すると、これらのモデルは深刻な性能崩壊を示す。
この劣化は, 選択走査機構が要求する2次元構造的前提に反する既存の縮小法において, 空間的に非依存な性質に起因している。
本研究では,圧縮プロセス全体を通して構造的整合性を維持するために設計された空間認識型トークン低減フレームワークSTORMを提案する。
STORMは、空間単位上の構造的操作への還元を再構成し、グリッドトポロジと近傍コヒーレンスの両方を維持するための局所的制約を強制する。
プラグアンドプレイモジュールとして、STORMは既存のリダクションパイプラインに、トレーニングなしで明示的な空間認識を提供する。
実験の結果、STORMはトレーニング不要の設定下で様々なビジョンのMambaバックボーンにまたがって最先端のプルーニング精度を達成している。
特に、STORMはVMamba上で相当な精度のリカバリを提供し、トップ1の精度で63.3\%以上の先行メソッドを上回ります。
一方、STORMはPlainMambaで1.0\%の精度低下しか発生せず、ViTに匹敵するパフォーマンスを実現している。
関連論文リスト
- DexWorldModel: Causal Latent World Modeling towards Automated Learning of Embodied Tasks [54.32016216994156]
本稿では,DINOv3特徴を生成対象として用い,視覚ノイズから相互作用意味を乱す因果潜在世界モデル(CLWM)を提案する。
メモリスケーリングを克服するため、CLWMはDual-State Test-Time Training (TTT)メモリを備えている。
EmbodiChainは、トレーニング中に物理基底軌道の無限の流れを注入することによって効率法を確立するオンラインフレームワークである。
論文 参考訳(メタデータ) (2026-04-13T03:19:36Z) - DLRMamba: Distilling Low-Rank Mamba for Edge Multispectral Fusion Object Detection [7.883488411699879]
マルチスペクトル融合物体検出は、エッジベースの海洋監視とリモートセンシングにとって重要な課題である。
Mambaのような現在の状態空間モデル(SSM)は、標準の2D Selective Scan (SS2D)ブロックで重要なパラメータ冗長性に悩まされている。
本稿では,行列分解による状態遷移を再構成し,固有特徴空間を利用する低ランク2次元選択状態空間モデル(Low-Rank SS2D)を提案する。
論文 参考訳(メタデータ) (2026-03-06T22:43:57Z) - Interpreting and Steering State-Space Models via Activation Subspace Bottlenecks [6.542236618174232]
ステートスペースモデル(SSM)は、強力な言語モデルを構築するための効率的な戦略として登場した。
彼らの約束にもかかわらず、現代のSSMの解釈可能性と操縦性は、いまだに未熟である。
本研究では,SSMモデルのMamba族におけるアクティベーションサブスペースボトルネックを,機械的解釈可能性のツールを用いて同定する。
論文 参考訳(メタデータ) (2026-02-26T07:46:42Z) - The Curious Case of In-Training Compression of State Space Models [49.819321766705514]
ステートスペースモデル(SSM)は、並列化可能なトレーニングと高速推論の両方を提供する。
鍵となる設計上の課題は、表現力の最大化と計算負荷の制限の間の適切なバランスを打つことだ。
我々のアプローチである textscCompreSSM はリニアリカレントユニットのような線形時間不変SSMに適用されるが、選択モデルにも拡張可能である。
論文 参考訳(メタデータ) (2025-10-03T09:02:33Z) - SparseSSM: Efficient Selective Structured State Space Models Can Be Pruned in One-Shot [8.080568103779893]
Mambaのような状態空間言語モデルは、線形複雑性推論を許容しながらTransformerの品質にマッチする。
既存のワンショットプルーニング手法はアテンションブロックに適合し、時間共有および離散化された状態遷移行列を考慮できない。
SparseSSMは、古典的最適な脳外科医(OBS)フレームワークをステートスペースアーキテクチャに拡張した最初のトレーニングフリープルーニングフレームワークである。
論文 参考訳(メタデータ) (2025-06-11T11:14:57Z) - Efficient Unstructured Pruning of Mamba State-Space Models for Resource-Constrained Environments [6.908972852063454]
状態空間モデル(SSM)は、シーケンスモデリングのためのトランスフォーマーの強力な代替品として登場した。
そこで本研究では,Mambaモデルに適した非構造化プルーニングフレームワークを提案し,その性能を95%以上維持しながら,最大70%のパラメータ削減を実現した。
論文 参考訳(メタデータ) (2025-05-13T07:23:08Z) - ACMamba: Fast Unsupervised Anomaly Detection via An Asymmetrical Consensus State Space Model [51.83639270669481]
ハイパースペクトル画像(HSI)における教師なし異常検出は、背景から未知のターゲットを検出することを目的としている。
HSI研究は、HSIの高次元特性と高密度サンプリングベーストレーニングパラダイムにより、計算コストの急激さによって妨げられている。
計算コストを大幅に削減する非対称コンセンサス状態空間モデル(ACMamba)を提案する。
論文 参考訳(メタデータ) (2025-04-16T05:33:42Z) - Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。