論文の概要: RT-Counter: Real-Time Text-Guided Open-Vocabulary Object Counting
- arxiv url: http://arxiv.org/abs/2606.17561v1
- Date: Tue, 16 Jun 2026 06:06:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.301113
- Title: RT-Counter: Real-Time Text-Guided Open-Vocabulary Object Counting
- Title(参考訳): RT-Counter:リアルタイムテキストガイド付きオープン語彙オブジェクトカウント
- Authors: Hao-Yuan Ma, Li Zhang, Zhiwei Zhu, Jie Gao,
- Abstract要約: 本稿では,リアルタイムカウンタ(RT-Counter)と呼ばれるリアルタイムTOOCフレームワークを提案する。
RT-Counterは高いカウント精度と高い計算効率を達成する。
本研究はTOOCにおける高精度とリアルタイム性能のバランスを図ることを目的としている。
- 参考スコア(独自算出の注目度): 8.257276365084605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided open-vocabulary object counting (TOOC) aims to count objects belonging to the categories specified by natural language descriptions. Although vision-language pre-trained models have been successful applied to TOOC tasks, they still struggle with fine-grained spatial understanding and real-time inference requirements in counting scenarios. To address these limitations, this paper proposes a real-time TOOC framework, called the Real-Time Counter (RT-Counter), that achieves not only good counting accuracy but also high computational efficiency. RT-Counter designs a novel Visual Prototype Textualization (VPT) module that can project learned visual features into a text feature space and then generate features containing the abstract information that is hard to capture with visual prototypes and the detailed prototype information that is difficult to describe in text, enhancing the object-level visual-language model's counting capabilities. Additionally, RT-Counter incorporates our Weaving Transformer (Weaformer) layers, maintaining high descriptive power at a fraction of the computational cost. The Weaformer layer adopts a novel hybrid attention mechanism that can efficiently weave together local and global visual features. Extensive experiments on three public datasets show that RT-Counter successfully breaks the accuracy-speed trade-off in TOOC. While achieving a competitive MAE of 13.30 on FSC147, RT-Counter operates at 112.48 FPS, making it 7.4x faster and over 4$\times$ more parameter-efficient than the existing leading methods in TOOC. Our work aims at balancing high accuracy and real-time performance in TOOC. Code is available at: https://github.com/Jason-Mar1/RT-Counter.
- Abstract(参考訳): テキスト誘導オープン語彙オブジェクトカウント(TOOC)は、自然言語記述によって指定されたカテゴリに属するオブジェクトをカウントすることを目的としている。
視覚言語による事前学習モデルはTOOCタスクに適用されているが、計算シナリオにおける詳細な空間的理解とリアルタイム推論の要求に苦慮している。
これらの制約に対処するために,リアルタイムTOOCフレームワークであるReal-Time Counter(RT-Counter)を提案する。
RT-Counter は新しい Visual Prototype Textualization (VPT) モジュールを設計し、学習した視覚的特徴をテキストの特徴空間に投影し、視覚的プロトタイプでキャプチャが難しい抽象情報とテキストで記述が難しい詳細なプロトタイプ情報を含む特徴を生成する。
さらに、RT-CounterはWeaving Transformer(Weaformer)レイヤを組み込んで、計算コストのごく一部で高い記述力を維持する。
Weaformer層は、ローカルおよびグローバルな視覚的特徴を効率的に織り込むことができる新しいハイブリッドアテンションメカニズムを採用している。
3つの公開データセットに対する大規模な実験は、RT-CounterがTOOCの精度と速度のトレードオフを破ることに成功したことを示している。
FSC147で13.30のMAEを達成する一方で、RT-Counterは112.48 FPSで動作し、7.4倍高速で4$\times$以上のパラメータ効率を実現している。
本研究はTOOCにおける高精度とリアルタイム性能のバランスを図ることを目的としている。
コードは、https://github.com/Jason-Mar1/RT-Counter.comで入手できる。
関連論文リスト
- SCOPE: Real-Time Natural Language Camera Agent at the Edge [0.0]
SCOPE(知覚と評価のためのシミュレーションとカメラ操作)
本稿では,PTZカメラ制御と視覚的シーン理解のためのモジュールエージェントSCOPEについて述べる。
我々は、Blenderベースのシミュレーション環境で、QA、単一言語カウント、カウント、空間推論、説明、光学文字認識にまたがる536タスクのベンチマークをリリースする。
論文 参考訳(メタデータ) (2026-06-01T23:07:44Z) - Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution [51.89342880214462]
Operations Research knowledge-based 3D Grounded Task Scheduling (ORS3D)は、言語理解、3Dグラウンド、効率最適化の相乗効果を必要とする新しいタスクである。
ORS3Dの研究を容易にするために,ORS3D-60Kを構築した。
ORS3D-60Kの実験は、言語理解、3Dグラウンド、スケジューリング効率にまたがるGRANTの有効性を検証する。
論文 参考訳(メタデータ) (2025-11-24T18:59:17Z) - IR3D-Bench: Evaluating Vision-Language Model Scene Understanding as Agentic Inverse Rendering [7.247417417159471]
視覚言語モデル(VLM)は記述的タスクに優れるが、視覚的な観察からシーンを真に理解しているかどうかは不明だ。
IR3D-Benchは、受動的認識よりも能動的生成による理解を実証するために、VLMに挑戦するベンチマークである。
論文 参考訳(メタデータ) (2025-06-29T17:02:57Z) - Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。
既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。
LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文 参考訳(メタデータ) (2025-05-17T10:22:29Z) - CountGD: Multi-Modal Open-World Counting [54.88804890463491]
本稿では,画像中のオープン語彙オブジェクトの数値化の一般化と精度の向上を目的とする。
本稿では,最初のオープンワールドカウントモデルであるCountGDを紹介した。
論文 参考訳(メタデータ) (2024-07-05T16:20:48Z) - Bootstrapping Referring Multi-Object Tracking [27.77514740607812]
マルチオブジェクト追跡(RMOT)と呼ばれる新しい一般的な参照理解タスクを導入する。
その中核となる考え方は、言語表現を意味的キューとして利用して、多目的追跡の予測を導くことである。
高品質なアノテーションを効率よく生成するために,9,758個の言語プロンプトを定式化する半自動ラベリングパイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-07T16:02:10Z) - CLIP-Count: Towards Text-Guided Zero-Shot Object Counting [32.07271723717184]
オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。
テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。
本手法は,対象物に対する高品質な密度マップを効果的に生成する。
論文 参考訳(メタデータ) (2023-05-12T08:19:39Z) - YORO -- Lightweight End to End Visual Grounding [58.17659561501071]
YOROは、Visual Grounding (VG)タスクのためのマルチモーダルトランスフォーマーエンコーダのみのアーキテクチャである。
自然言語クエリ、イメージパッチ、学習可能な検出トークンを消費し、参照対象の座標を予測する。
YOROはリアルタイム推論をサポートし、このクラスのすべてのアプローチ(単一段階法)を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-11-15T05:34:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。