論文の概要: MambaCount: Efficient Text-guided Open-vocabulary Object Counting with Spatial Sparse State Space Duality Block
- arxiv url: http://arxiv.org/abs/2606.17650v1
- Date: Tue, 16 Jun 2026 08:11:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.347876
- Title: MambaCount: Efficient Text-guided Open-vocabulary Object Counting with Spatial Sparse State Space Duality Block
- Title(参考訳): MambaCount:空間スパース状態空間双対ブロックを用いた効率的なテキスト誘導オープン語彙オブジェクト
- Authors: Hao-Yuan Ma, Li Zhang, Minjie Qiang, Jie Gao,
- Abstract要約: Text-guided Open-vocabulary Object Counting (TOOC) は、テキストプロンプトによって記述されるオブジェクトの数を推定することを目的としている。
Mambaは線形複雑性のために有望な代替手段を提供する。
MambaCountは空間スパース状態空間双対(S4D)ブロック上に構築された効率的なフレームワークである。
- 参考スコア(独自算出の注目度): 8.77642380677869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided Open-vocabulary Object Counting (TOOC) aims to estimate the number of objects described by text prompts, which is particularly challenging in dense scenes with large scale variations. Existing TOOC approaches predominantly rely on Transformers, whose quadratic complexity with respect to image resolution limits their scalability. Mamba offers a promising alternative due to its linear complexity. However, previous Mamba-based methods have two main limitations. On the one hand, the inherent causal formulation of Mamba constrains the bidirectional spatial dependency modeling required by non-causal vision tasks. On the other hand, existing Mamba-based vision models often overlook the unconstrained high entropy in the spatial token responses, which can weaken local details and high-frequency cues. To address these limitations, we propose MambaCount, an efficient framework built on the Spatial Sparse State Space Duality (S^4D) block. Specifically, we analyze and reconstruct the decay dynamics of hidden states in Mamba to alleviate the dependency constraints introduced by causal modeling. Moreover, we introduce a Spatial Token Selection (STS) sub-block to reduce the unconstrained high entropy in spatial token responses within Mamba. In addition, we design Multi-Granularity Prototypes (MGP) to identify object-like regions at different semantic levels, improving cross-modal alignment and interpretability. Extensive experiments on FSC-147 demonstrate that MambaCount achieves state-of-the-art performance among methods without secondary querying, obtaining a test MAE of 12.23, while retaining linear complexity.
- Abstract(参考訳): テキスト誘導オープン語彙オブジェクトカウント(TOOC)は、テキストプロンプトによって記述されるオブジェクトの数を推定することを目的としている。
既存のTOOCアプローチは主にトランスフォーマーに依存しており、画像解像度に関する2次複雑さはスケーラビリティを制限している。
Mambaは線形複雑性のために有望な代替手段を提供する。
しかし、以前のMambaベースの手法には2つの大きな制限がある。
一方,マンバの因果関係の定式化は,非因果的視覚タスクに必要な双方向空間依存性モデリングを制約する。
一方、既存のマンバをベースとした視覚モデルは、空間トークン応答における制約のない高エントロピーをしばしば見落とし、局所的な詳細や高周波キューを弱める。
これらの制約に対処するため,空間スパース状態空間双対(S^4D)ブロック上に構築された効率的なフレームワークであるMambaCountを提案する。
具体的には,マンバの隠れ状態の崩壊ダイナミクスを分析し,因果モデリングによって引き起こされる依存性の制約を緩和する。
さらに,空間トークン応答の制約のない高エントロピーを低減するために,空間トークン選択(STS)サブブロックを導入する。
さらに,多角性プロトタイプ (MGP) を設計し,異なる意味レベルでオブジェクトのような領域を識別し,相互のアライメントと解釈性を向上させる。
FSC-147の大規模な実験により、MambaCountは2次クエリなしの手法で最先端のパフォーマンスを達成し、線形複雑性を維持しながら12.23のMAEを得ることを示した。
関連論文リスト
- MambaPanoptic: A Vision Mamba-based Structured State Space Framework for Panoptic Segmentation [44.88330743454271]
MambaPanopticは、完全なMambaベースのパン光学セグメンテーションフレームワークである。
トップダウン機能ピラミッドであるMambaFPNを導入し、Mambaブロックを利用してグローバルに一貫性のあるマルチスケール機能表現を生成する。
Cityscapes と Panoptic segmentation ベンチマークの実験では、MambaPanoptic は PanopticDeepLab と PanopticFCN を一貫して上回っている。
論文 参考訳(メタデータ) (2026-05-12T18:30:49Z) - Samba+: General and Accurate Salient Object Detection via A More Unified Mamba-based Framework [66.2103745798444]
Saliency Mamba (Samba) は、純粋なMambaベースのアーキテクチャで、様々な異なるサルトオブジェクト検出タスクを柔軟に処理する。
Sambaは、計算コストの低い22データセット上の6つのSODタスクで、既存のメソッドを個別に上回ります。
Samba+は、トレーニング済みの汎用モデルを使用することで、これらのタスクとデータセット上でさらに優れた結果を得る。
論文 参考訳(メタデータ) (2026-02-02T03:34:25Z) - MambaMIL+: Modeling Long-Term Contextual Patterns for Gigapixel Whole Slide Image [24.093388981091717]
多重インスタンス学習(MIL)は、各WSIをパッチレベルのインスタンスの袋として扱うことでソリューションを提供する。
Mambaは長いシーケンス学習のための有望な代替手段として登場し、数千のトークンに線形にスケーリングしている。
長距離依存性モデリングを維持しながら空間コンテキストを明示的に統合する新しいMILフレームワークであるMambaMIL+を提案する。
論文 参考訳(メタデータ) (2025-12-19T16:01:14Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - DeciMamba: Exploring the Length Extrapolation Potential of Mamba [89.07242846058023]
本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。
実世界の長距離NLPタスクに対する実験では、DeciMambaはトレーニング中に見られるものよりも、コンテキスト長に格段に長く当てはまることが示されている。
論文 参考訳(メタデータ) (2024-06-20T17:40:18Z) - MambaMIL: Enhancing Long Sequence Modeling with Sequence Reordering in
Computational Pathology [10.933433327636918]
MIL(Multiple Instance Learning)は、WSI(Whole Slide Images)内の識別的特徴表現を計算病理学で抽出する主要なパラダイムとして登場した。
本稿では,線形複雑度を持つ長周期モデリングのために,Selective Scan Space State Sequential Model(Mamba)をMIL(Multiple Instance Learning)に組み込む。
提案するフレームワークは,最先端のMIL手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-03-11T15:17:25Z) - MamMIL: Multiple Instance Learning for Whole Slide Images with State Space Models [56.37780601189795]
本稿では,WSI分析のためのフレームワークMamMILを提案する。
私たちは各WSIを非指向グラフとして表現します。
マンバが1次元シーケンスしか処理できない問題に対処するために、トポロジ対応の走査機構を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:02:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。