論文の概要: Test-Time Training for Robust Text-Guided Open-Vocabulary Object Counting
- arxiv url: http://arxiv.org/abs/2606.17601v1
- Date: Tue, 16 Jun 2026 07:08:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.322045
- Title: Test-Time Training for Robust Text-Guided Open-Vocabulary Object Counting
- Title(参考訳): ロバストテキストガイドによるオープン語彙オブジェクトカウントの試験時間トレーニング
- Authors: Hao-Yuan Ma, Yuda Zou, Li Zhang, Yongchao Xu,
- Abstract要約: テキスト誘導Open-vocabulary Object Counting (TOOC)は、テキストプロンプトによって指定された任意のオブジェクトカテゴリをカウントできる。
既存のTOOC手法は,主に理想画像に基づいて開発・評価されている。
多様な汚職条件下でのTOOC評価のための最初のベンチマークであるRobust-TOOCを紹介する。
本論文では,TOOCのためのデュアルアーキテクチャテストタイムトレーニングフレームワークであるDual-TTTを提案する。
- 参考スコア(独自算出の注目度): 12.871212510225604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided Open-vocabulary Object Counting (TOOC) enables counting arbitrary object categories specified by text prompts, offering substantially greater flexibility than conventional closed-set counting. However, existing TOOC methods are developed and evaluated primarily on ideal images, while real-world scenes often suffer from adverse conditions such as rain, fog, darkness, and sensor noise, which severely degrade visual quality and impair vision-language alignment. To bridge this gap, we introduce Robust-TOOC, the first benchmark for evaluating TOOC under diverse corruption conditions, which covers six representative degradation types: rain, fog, darkness, Gaussian noise, salt-and-pepper noise, and mixed corruption. To improve robustness while preserving the original counting architecture, we propose Dual-TTT, a dual-architecture test-time training framework for TOOC. Specifically, during test-time training, Dual-TTT updates only the Text-guided Lightweight Denoising module (TL-Denoiser), while keeping the original counting network frozen. Inspired by diffusion models, the TL-Denoiser is optimized to remove corruption-aware noise from image representations under degraded conditions. Since only the TL-Denoiser is trained at test time, Dual-TTT is annotation-free and can be seamlessly integrated into existing TOOC models without modifying their original architecture. Extensive experiments on multiple recent TOOC baselines demonstrate the effectiveness of our method.
- Abstract(参考訳): テキスト誘導Open-vocabulary Object Counting (TOOC)は、テキストプロンプトによって指定された任意のオブジェクトカテゴリをカウントできる。
しかし、既存のTOOC法は主に理想的な画像に基づいて開発され評価されているのに対し、現実世界のシーンは雨、霧、暗闇、センサーノイズなどの悪条件に悩まされ、視覚的品質や視覚言語によるアライメントが著しく低下する。
このギャップを埋めるために, 雨, 霧, 暗闇, ガウスノイズ, 塩とペッパーノイズ, 混合汚濁の6種類の代表的な劣化タイプをカバーする, 多様な汚濁条件下でTOOCを評価するための最初のベンチマークであるRobust-TOOCを紹介した。
元のカウントアーキテクチャを保存しながらロバスト性を向上させるため,TOOCのためのデュアルアーキテクチャテストタイムトレーニングフレームワークであるDual-TTTを提案する。
具体的には、テスト時間トレーニング中にDual-TTTは、元のカウントネットワークを凍結させながら、Text-guided Lightweight Denoising Module (TL-Denoiser)のみを更新する。
拡散モデルにインスパイアされたTL-Denoiserは、劣化した条件下での画像表現から汚損を考慮したノイズを取り除くように最適化されている。
TL-Denoiserのみがテスト時にトレーニングされるため、Dual-TTTはアノテーションなしで、元のアーキテクチャを変更することなく既存のTOOCモデルにシームレスに統合できる。
複数のTOOCベースラインに対する大規模な実験により,本手法の有効性が示された。
関連論文リスト
- PRISM: Prior Rectification and Uncertainty-Aware Structure Modeling for Diffusion-Based Text Image Super-Resolution [51.96078493242164]
PRISMは単一ステップ拡散ベースのText-SRフレームワークである。
PRISMはミリ秒レベルの推論で最先端の性能を達成する。
論文 参考訳(メタデータ) (2026-05-13T05:31:06Z) - DynT2I-Eval: A Dynamic Evaluation Framework for Text-to-Image Models [78.62380562116135]
テキスト・トゥ・イメージ(T2I)モデルのための完全に自動化された動的評価フレームワークであるDynT2I-Evalを提案する。
長い形式の記述から構造化された視覚意味空間を構築し、プロンプトを制御可能な次元に分解する。
DynT2I-Evalは、テキストアライメント、知覚品質、美学のモデル性能を評価する。
論文 参考訳(メタデータ) (2026-05-07T12:53:51Z) - Subspace Alignment for Vision-Language Model Test-time Adaptation [82.83192844597593]
視覚言語モデル(VLM)は分布シフトに対して脆弱である。
既存のテスト時間適応法は、自己学習のための擬似ラベルとしてゼロショット予測に依存している。
両モードのセマンティック部分空間を整列させてゼロショット予測を強化するSubTTAを提案する。
論文 参考訳(メタデータ) (2026-01-13T02:02:41Z) - T2ICount: Enhancing Cross-modal Understanding for Zero-Shot Counting [30.004769932953952]
ゼロショットオブジェクトカウントは、テキスト記述によって指定された任意のオブジェクトカテゴリのインスタンスをカウントすることを目的としている。
我々は、事前学習した拡散モデルから、豊富な事前知識ときめ細かい視覚的理解を活用する拡散に基づくフレームワークT2ICountを提案する。
論文 参考訳(メタデータ) (2025-02-28T01:09:18Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - ConsistencyTTA: Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation [21.335983674309475]
拡散モデルは、世代毎の根底にあるデノナイジングネットワークへのクエリ数が過度に多いため、遅い推論に悩まされる。
本稿では,1つの非自己回帰型ネットワーククエリのみを必要とするフレームワークであるConsistencyTTAを紹介する。
そこで我々は「CFG対応潜時整合モデル」を提案し, 整合性生成を潜時空間に適応させる。
論文 参考訳(メタデータ) (2023-09-19T16:36:33Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - ReADS: A Rectified Attentional Double Supervised Network for Scene Text
Recognition [22.367624178280682]
一般的なシーンテキスト認識のためのRectified Attentional Double Supervised Network (ReADS) を精巧に設計する。
ReADSはエンドツーエンドでトレーニングすることができ、ワードレベルのアノテーションのみが必要とされる。
論文 参考訳(メタデータ) (2020-04-05T02:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。