論文の概要: CL-CLIP: CLIP-Based Continual Learning Framework with Cost-Volume Category Decoupling for Object Detection
- arxiv url: http://arxiv.org/abs/2606.06978v1
- Date: Fri, 05 Jun 2026 07:09:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.607039
- Title: CL-CLIP: CLIP-Based Continual Learning Framework with Cost-Volume Category Decoupling for Object Detection
- Title(参考訳): CL-CLIP:CLIPに基づく連続学習フレームワーク
- Authors: Zihan Liu, Yuguang Yang, Shengjie Su, Jianing Pang, Linlin Yang, Chunyu Xie, Nikolai Yu. Zolotykh, Baochang Zhang,
- Abstract要約: 連続物体検出(COD)は、事前に学習したものを保存しながら、時間とともに新しいカテゴリを取得するために検出器を必要とする。
最近のCLIPベースのオープンボキャブラリ検出器は強いゼロショットの一般化を示している。
CLIPベースのCODフレームワークであるCL-CLIPを提案する。
- 参考スコア(独自算出の注目度): 25.86078021755795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual Object Detection (COD) requires a detector to acquire new categories over time while preserving previously learned ones. This goal is closely related to open-vocabulary detection, since both settings require reasoning over categories that are not fully covered by the annotations available at the current training stage. Recent CLIP-based open-vocabulary detectors have shown strong zero-shot generalization, and frameworks such as F-ViT demonstrate that vision-language pretraining can provide powerful zero-shot detection ability for unseen categories. However, real-world deployments cannot remain purely zero-shot: once these detectors are continually updated on newly introduced categories, they suffer severe catastrophic forgetting and quickly lose their previously calibrated detection ability. We therefore propose CL-CLIP, a CLIP-based COD framework that equips open-vocabulary detectors with better continual learning ability through cost-volume-guided category decoupling. Specifically, following CAT-Seg, we compute a CLIP image-text similarity cost volume, defined as dense category-wise response maps between visual tokens and class text embeddings. This zero-shot spatial prior decomposes shared region features into class-specific pathways, which are then processed by a Multi-Expert RoI head. Extensive experiments on PASCAL VOC and MS-COCO show that CL-CLIP substantially improves the F-ViT baseline under continual fine-tuning and achieves competitive performance with existing continual object detectors, especially in adapting to newly introduced categories while preserving competitive base-class performance.
- Abstract(参考訳): 連続物体検出(COD)は、事前に学習したものを保存しながら、時間とともに新しいカテゴリを取得するために検出器を必要とする。
この目標はオープンな語彙検出と密接に関連している。どちらの設定も、現在のトレーニング段階で利用できるアノテーションで完全にカバーされていないカテゴリを推論する必要があるからだ。
最近のCLIPベースのオープンボキャブラリ検出器は、強力なゼロショット一般化を示しており、F-ViTのようなフレームワークは、視覚言語による事前学習が、目に見えないカテゴリに対して強力なゼロショット検出能力を提供できることを示した。
しかし、現実世界の展開は純粋にゼロショットに留まることはできない:これらの検出器が新しく導入されたカテゴリで継続的に更新されると、深刻な破滅的な忘れ込みに悩まされ、以前の校正された検出能力が急速に失われる。
そこで我々は,CLIPをベースとしたCODフレームワークであるCL-CLIPを提案する。
具体的には、CAT-Segに従って、視覚トークンとクラステキスト埋め込みの間のカテゴリワイド対応マップとして定義されるCLIP画像-テキスト類似度コストボリュームを計算する。
このゼロショット空間先行は、共有領域の特徴をクラス固有の経路に分解し、その後、Multi-Expert RoIヘッドによって処理される。
PASCAL VOCとMS-COCOの大規模な実験により、CL-CLIPは連続微調整下でF-ViTベースラインを大幅に改善し、既存の連続物体検出器との競合性能、特に新しく導入されたカテゴリに適応し、競争力のあるベースクラス性能を維持した。
関連論文リスト
- CLIP-Joint-Detect: End-to-End Joint Training of Object Detectors with Contrastive Vision-Language Supervision [0.08699280339422537]
CLIP-Joint-Detectは,エンドツーエンドのジョイントトレーニングを通じて,CLIPスタイルのコントラスト的視覚言語指導を統合するフレームワークである。
軽量並列ヘッドは、CLIP埋め込み空間に領域やグリッドを投影し、InfoNCEの対照的な損失と補助的なクロスエントロピー項を通じて学習可能なクラス固有のテキスト埋め込みと整列する。
我々は、Faster R-CNNを用いたPascal VOC 2007+2012と、最新のYOLO検出器(YOLOv11)を用いた大規模MS 2017ベンチマークでこれを検証した。
論文 参考訳(メタデータ) (2025-12-28T15:21:20Z) - C2P-CLIP: Injecting Category Common Prompt in CLIP to Enhance Generalization in Deepfake Detection [98.34703790782254]
本稿では、カテゴリ共通プロンプトCLIPを紹介し、カテゴリ共通プロンプトをテキストエンコーダに統合し、カテゴリ関連概念をイメージエンコーダに注入する。
提案手法は,テスト中に追加パラメータを導入することなく,元のCLIPと比較して検出精度が12.41%向上した。
論文 参考訳(メタデータ) (2024-08-19T02:14:25Z) - CLAP4CLIP: Continual Learning with Probabilistic Finetuning for Vision-Language Models [23.398619576886375]
継続学習(CL)は、ディープラーニングが学習したものを保持しながら、新しい知識を学ぶのを支援することを目的としている。
タスクごとの視覚誘導テキスト機能に対する確率的モデリングフレームワークであるCLAP(Continuous LeArning with Probabilistic Finetuning)を提案する。
論文 参考訳(メタデータ) (2024-03-28T04:15:58Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [68.41025728960176]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - EdaDet: Open-Vocabulary Object Detection Using Early Dense Alignment [28.983503845298824]
本稿では,一般化可能な局所意味論とオブジェクトレベルの予測とのギャップを埋めるために,早期Dense Alignment (EDA)を提案する。
EDAでは、局所的なきめ細かなセマンティクスを維持するために、オブジェクトレベルのアライメントではなく、オブジェクトレベルのインシデントを学習するためにオブジェクトレベルのインシデントを使用します。
論文 参考訳(メタデータ) (2023-09-03T12:04:14Z) - GridCLIP: One-Stage Object Detection by Grid-Level CLIP Representation
Learning [55.77244064907146]
一段階検出器GridCLIPはグリッドレベルの表現を学習し、一段階検出学習の本質的な原理に適応する。
実験により、学習したCLIPベースのグリッドレベル表現は、アンダーサンプリングされた(稀で新しい)カテゴリのパフォーマンスを高めることが示された。
論文 参考訳(メタデータ) (2023-03-16T12:06:02Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。