論文の概要: Rethinking Prototype-based Similarity Learning for Few-Shot Object Detection
- arxiv url: http://arxiv.org/abs/2606.23069v1
- Date: Mon, 22 Jun 2026 09:18:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 00:21:56.718323
- Title: Rethinking Prototype-based Similarity Learning for Few-Shot Object Detection
- Title(参考訳): Few-Shotオブジェクト検出のためのプロトタイプベース類似性学習の再考
- Authors: KunHo Heo, Seungjae kim, Wongyu Lee, SuYeon Kim, MyeongAh Cho,
- Abstract要約: ほとんどショットされていないオブジェクト検出は、少数のラベル付き例から新しいオブジェクトカテゴリを検出し、コストのかかる大規模なアノテーションを避けることを目的としている。
近年のプロトタイプに基づく類似性学習手法により,クエリ機能とクラスプロトタイプとのマッチングによる学習自由な適応が可能となった。
テキスト・アンコレート・セマンティック・マスクとステージ・アラインメント・階層的自己回帰回帰という2つの補完的要素を紹介した。
- 参考スコア(独自算出の注目度): 3.405768252883924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot object detection aims to detect novel object categories from only a few labeled examples, avoiding costly large-scale annotation. Recent prototype-based similarity learning approaches enable training-free adaptation by matching query features with class prototypes. However, they suffer from two fundamental limitations: (i) class confusion arising from inter-class similarity margin collapse, and (ii) insufficient visual cues for precise localization, as similarity scores capture only class-level semantic affinity while providing limited spatial information. To address these issues, we introduce two complementary components. Text-Anchored Semantic Mask (TSMa) leverages class-level text features as semantic anchors to identify semantically aligned channels through channel-wise interaction between visual and text features. By suppressing style-induced spurious responses and emphasizing class-intrinsic signals, TSMa enlarges inter-class similarity margins and mitigates class confusion. We further propose Stage-Aligned Hierarchical Autoregressive Regression (SHARe), which reformulates localization as a hierarchical autoregressive process that progressively refines bounding boxes across multiple stages. SHARe leverages the layer-wise characteristics of ViT representations by aligning feature abstraction levels with regression stages: deeper layers guide early coarse localization, while shallower layers rich in edge and texture cues refine spatial details in later stages. Experiments on COCO demonstrate a new state of the art, outperforming the previous best by +10.1 nAP, with extensive analysis validating each component. The code is available at https://github.com/VisualScienceLab-KHU/ReSet.
- Abstract(参考訳): ほとんどショットされていないオブジェクト検出は、少数のラベル付き例から新しいオブジェクトカテゴリを検出し、コストのかかる大規模なアノテーションを避けることを目的としている。
近年のプロトタイプに基づく類似性学習手法により,クエリ機能とクラスプロトタイプとのマッチングによる学習自由な適応が可能となった。
しかし、それらは2つの基本的な制限に悩まされている。
一 階級間類似性マージン崩壊による階級混乱、及び
(II) 類似度スコアが空間情報に制限を与えながらクラスレベルの意味親和性のみを捉えるため, 正確な位置決めのための視覚的手がかりが不十分である。
これらの問題に対処するために,2つの相補的なコンポーネントを導入する。
Text-Anchored Semantic Mask (TSMA)は、クラスレベルのテキスト機能をセマンティックアンカーとして活用し、視覚的特徴とテキスト的特徴の間のチャネルワイドな相互作用を通じて意味的に整合したチャネルを識別する。
スタイルによって引き起こされる刺激応答を抑え、クラス固有の信号を強調することで、TSMaはクラス間の類似性マージンを拡大し、クラス混乱を緩和する。
さらに,複数の段階にわたる境界ボックスを段階的に洗練する階層的自己回帰プロセスとして,局所化を再構築する段階的自己回帰回帰(SHARe)を提案する。
SHAReは、特徴抽象レベルを回帰段階に整合させることにより、ViT表現の層ワイズ特性を利用する: 深い層は早期粗い局所化を導い、浅い層はエッジとテクスチャに富み、後段の空間的詳細を洗練させる。
COCOの実験では、新しい最先端技術が示され、各コンポーネントを広範囲に分析し、以前の最高値を+10.1 nAPで上回った。
コードはhttps://github.com/VisualScienceLab-KHU/ReSetで入手できる。
関連論文リスト
- SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking [89.43370214059955]
Open-vocabulary Multiple Object Tracking (MOT)は、トレーニングセットにはない新しいカテゴリにトラッカーを一般化することを目的としている。
我々は,連合の初期段階において,意味論,位置,出現の先行を共同で検討する統一的な枠組みを提案する。
提案手法は,異なるキューを融合するための複雑な後処理を排除し,大規模オープン語彙追跡のための関連性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:36:58Z) - Semantic Enhanced Few-shot Object Detection [37.715912401900745]
本稿では, セマンティックな埋め込みを利用してより優れた検出を行う, 微調整に基づくFSODフレームワークを提案する。
提案手法は,各新規クラスが類似の基底クラスと混同されることなく,コンパクトな特徴空間を構築することを可能にする。
論文 参考訳(メタデータ) (2024-06-19T12:40:55Z) - Distinguishability Calibration to In-Context Learning [31.375797763897104]
そこで本研究では, PLM符号化埋め込みを新しい距離空間にマッピングすることで, 埋め込みの識別性を保証する手法を提案する。
また、双曲的埋め込みの利点を生かして、粒度の細かいクラス関連トークン埋め込み間の階層的関係を捉える。
論文 参考訳(メタデータ) (2023-02-13T09:15:00Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z) - Anti-aliasing Semantic Reconstruction for Few-Shot Semantic Segmentation [66.85202434812942]
セグメンテーションを意味的再構成問題として再検討する。
基本クラスの特徴を,新しいクラス再構築のためのクラスレベルのセマンティック空間にまたがる一連の基底ベクトルに変換する。
提案手法はアンチエイリアス・セマンティック・リストラクション (ASR) と呼ばれ, 数発の学習問題に対して, 体系的かつ解釈可能な解法を提供する。
論文 参考訳(メタデータ) (2021-06-01T02:17:36Z) - Isometric Propagation Network for Generalized Zero-shot Learning [72.02404519815663]
一般的な戦略は、クラス属性の意味空間と、見たクラスとそのデータに基づいて画像の視覚空間とのマッピングを学ぶことである。
本稿では,各空間内のクラス間の関係を強化し,2つの空間におけるクラス依存性を整合させるIsometric propagation Network (IPN)を提案する。
IPNは3つの人気のあるゼロショット学習ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-02-03T12:45:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。