論文の概要: ExDet: Open-Domain Open-Vocabulary Detection with Cross-modal Extrapolation and Rectification
- arxiv url: http://arxiv.org/abs/2606.09360v1
- Date: Mon, 08 Jun 2026 11:34:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.944199
- Title: ExDet: Open-Domain Open-Vocabulary Detection with Cross-modal Extrapolation and Rectification
- Title(参考訳): ExDet: クロスモーダル外挿と整形によるオープンドメインオープンボキャブラリ検出
- Authors: Yupeng Zhang, Yuzhong Feng, Ruize Han, Zhiwei Chen, Wei Feng, Liang Wan,
- Abstract要約: オープンドメインのオープンボキャブラリ検出は、新しいカテゴリと見えないドメインの両方に一般化するために検出器を必要とする。
ODOVDのための軽量なカテゴリドメイン協調一般化フレームワークであるExDetを提案する。
ExDetはText-Guided Extrapolation (TGE)、DCRモジュール、ExRPNで構成されている。
- 参考スコア(独自算出の注目度): 36.08597733817782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-domain open-vocabulary detection (ODOVD) requires detectors to generalize to both novel categories and unseen domains, making it more challenging than open-vocabulary detection. Existing methods typically train open-vocabulary detectors together with domain generalization modules from scratch, leading to high training cost. we propose ExDet, a lightweight category-domain collaborative generalization framework for ODOVD that enhances the cross-category and cross-domain generalization of existing detectors. ExDet consists of Text-Guided Extrapolation (TGE), a lightweight Detector-Compatible Rectification (DCR) module, and ExRPN. Specifically, TGE exploits the DeltaSpace property of vision-language models (VLMs) to infer category- and domain-aware proxy visual prototypes from text. DCR is learned from the TGE-generated prototypes in a detector training-free and real-data-free manner, and is inserted after the classification head at inference to rectify representations toward a detector-compatible source-domain visual distribution, thereby enhancing classification for targets from novel categories and unseen domains. ExRPN recalibrates proposal scores by combining semantic similarity with RPN confidence, improving recall for novel and domain-shifted objects while providing better support for subsequent classification and DCR. ExDet achieves SOTA performance on OD-LVIS, OV-LVIS, Objects365, and MSOSB.
- Abstract(参考訳): オープンドメイン開語彙検出(ODOVD)は、新しいカテゴリと見えないドメインの両方に一般化するために検出器を必要とするため、オープンドメイン開語彙検出よりも難しい。
既存の方法は、通常、開語彙検出器とドメイン一般化モジュールをゼロから訓練し、高い訓練コストをもたらす。
我々はODOVDのための軽量なカテゴリドメイン協調一般化フレームワークであるExDetを提案し、既存の検出器のクロスカテゴリとクロスドメインの一般化を強化する。
ExDet は Text-Guided Extrapolation (TGE)、軽量な Detector-Compatible Rectification (DCR) モジュール、ExRPN から構成されている。
具体的には、TGEはビジョン言語モデル(VLM)のDeltaSpaceプロパティを利用して、テキストからカテゴリおよびドメイン対応のプロキシビジュアルプロトタイプを推論する。
DCRは、TGE生成したプロトタイプから、非検出訓練と実データフリーで学習され、推論時に分類ヘッドの後に挿入され、検出器互換のソースドメインの視覚分布に対する表現を修正し、新しいカテゴリや見えないドメインからのターゲットの分類を強化する。
ExRPNは、意味的類似性とRPNの信頼性を組み合わせることで提案のスコアを再検討し、新規およびドメインシフトオブジェクトのリコールを改善し、その後の分類とDCRのサポートを改善した。
ExDetはOD-LVIS、OV-LVIS、Objects365、MSOSBでSOTAのパフォーマンスを達成する。
関連論文リスト
- Towards Adaptive Open-Set Object Detection via Category-Level Collaboration Knowledge Mining [54.999230823851384]
既存のオブジェクト検出器は、新しいカテゴリに適応しながら、ドメインをまたいだ一般化に苦慮することが多い。
ドメイン間のクラス間関係とクラス内関係を両立させる,カテゴリレベルの協調知識マイニング戦略を提案する。
我々の手法は、最先端の AOOD 法を 1.1-5.5 mAP で一貫して上回っている。
論文 参考訳(メタデータ) (2026-04-13T08:51:01Z) - Parameter-Efficient Semantic Augmentation for Enhancing Open-Vocabulary Object Detection [33.35667602014138]
HSA-DINOは、オープン語彙オブジェクト検出を強化するためのパラメータ効率のよいセマンティック拡張フレームワークである。
推論中に適切な意味拡張戦略を動的に選択する意味認識ルータを提案する。
我々は,OV-COCO上のHSA-DINO,いくつかの垂直領域データセット,修正されたベンチマーク設定を評価した。
論文 参考訳(メタデータ) (2026-04-06T05:41:33Z) - Learning Multi-Modal Prototypes for Cross-Domain Few-Shot Object Detection [25.15191353465313]
Cross-Domain Few-Shot Object Detection (CD-FSOD) は、いくつかのラベル付き例があるだけで、目に見えないターゲットドメインで新しいクラスを検出することを目的としている。
本稿では,LMPと呼ばれるマルチモーダルプロトタイプを目標領域から抽出した視覚的特徴とテキストガイダンスを結合して学習するデュアルブランチ検出器を提案する。
論文 参考訳(メタデータ) (2026-02-21T12:10:48Z) - LAB-Det: Language as a Domain-Invariant Bridge for Training-Free One-Shot Domain Generalization in Object Detection [53.988759250627425]
物体検出のための訓練不要なワンショット領域一般化を提案する。
我々は各例を、凍結検知器を条件付けし誘導する記述テキストに投影する。
UODD (underwater) と NEU-DET (industrial defects) についての検討
論文 参考訳(メタデータ) (2026-02-06T08:03:04Z) - Style-Adaptive Detection Transformer for Single-Source Domain Generalized Object Detection [7.768332621617199]
単一ソースドメインの一般化は、未確認のターゲットドメインによく一般化するソースドメインデータのみを使用して検出器を開発することを目的としている。
既存の手法は主にCNNベースで、データ拡張と機能アライメントを組み合わせることで堅牢性を向上させる。
単一ソース領域の一般化に適したDTRベースの検出器であるStyle-Adaptive Detection TRansformer (SA-DETR)を提案する。
論文 参考訳(メタデータ) (2025-04-29T07:38:37Z) - DATR: Unsupervised Domain Adaptive Detection Transformer with Dataset-Level Adaptation and Prototypical Alignment [7.768332621617199]
我々は、オブジェクト検出の教師なし領域適応のために、ドメイン適応検出TRansformer(DATR)と呼ばれる強力なDETRベースの検出器を導入する。
提案するDATRは,教師モデルによって生成された擬似ラベルを用いて,平均教師に基づく自己学習フレームワークを組み込んで,ドメインバイアスをさらに緩和する。
複数のドメイン適応シナリオにおいて,提案したDATRの性能と一般化性を示す実験を行った。
論文 参考訳(メタデータ) (2024-05-20T03:48:45Z) - Decomposition-based Unsupervised Domain Adaptation for Remote Sensing Image Semantic Segmentation [30.606689882397223]
非教師なし領域適応(UDA)技術は、地球科学のセマンティックセグメンテーションに不可欠である。
高レベルの特徴空間におけるドメインアライメントに焦点を当てた既存のUDA手法の多くは、局所的な空間的詳細とグローバルな文脈的意味論を同時に維持するのに苦労している。
ドメイン不変表現学習を導くための新しい分解手法を提案する。
論文 参考訳(メタデータ) (2024-04-06T07:13:49Z) - Cross-Domain Few-Shot Object Detection via Enhanced Open-Set Object Detector [72.05791402494727]
本稿では,CD-FSODを用いたクロスドメイン小ショット検出法について検討する。
最小限のラベル付き例で、新しいドメインのための正確なオブジェクト検出器を開発することを目的としている。
論文 参考訳(メタデータ) (2024-02-05T15:25:32Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - Cross-domain Detection via Graph-induced Prototype Alignment [114.8952035552862]
カテゴリレベルのドメインアライメントを求めるグラフ誘発プロトタイプアライメント(GPA)フレームワークを提案する。
さらに,クラス不均衡がドメイン適応に与える影響を軽減するために,クラス重み付きコントラスト損失を設計する。
我々のアプローチは、既存の手法よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2020-03-28T17:46:55Z) - Universal-RCNN: Universal Object Detector via Transferable Graph R-CNN [117.80737222754306]
我々はUniversal-RCNNと呼ばれる新しいユニバーサルオブジェクト検出器を提案する。
まず、すべてのカテゴリの高レベルなセマンティック表現を統合することで、グローバルなセマンティックプールを生成する。
ドメイン内推論モジュールは、空間認識GCNによってガイドされる1つのデータセット内のスパースグラフ表現を学習し、伝播する。
論文 参考訳(メタデータ) (2020-02-18T07:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。