論文の概要: Learning a Semantic Calibration Network for Open-Vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2606.08001v1
- Date: Sat, 06 Jun 2026 06:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.611115
- Title: Learning a Semantic Calibration Network for Open-Vocabulary Semantic Segmentation
- Title(参考訳): オープンボキャブラリセマンティックセマンティックセマンティックセマンティックセマンティクスのためのセマンティックキャリブレーションネットワークの学習
- Authors: Yang Sun, Tao Wang, Anastasia Ioannou, Ge Xu,
- Abstract要約: Open-Vocabulary (OVS) は、セグメンテーションタスクを固定集合から開集合に拡張する。
オープン語彙セマンティックセマンティックスセグメンテーションのための新しいセマンティックネットワーク(SCN)を提案する。
提案手法は,最先端のアルゴリズムと比較して,大幅な性能向上を実現している。
- 参考スコア(独自算出の注目度): 5.122331812021513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic image segmentation assigns a predefined category label to each pixel, has achieved significant progress lately. Open-Vocabulary Segmentation (OVS) extends the segmentation task from a fixed set to an open set, enabling the identification and segmentation of novel concepts based on arbitrary text inputs, such as category names or descriptions. In this paper, we propose a novel Semantic Calibration Network (SCN) for open-vocabulary semantic segmentation. Different from prior approaches that focus on feature aggregation or simple fine-tuning of pre-trained models, SCN refines the mask classification process by explicitly modeling the semantic correlations between classes, aiming to enhance the model's discriminative power while effectively preserving the generalization abilities of the pre-trained CLIP model. Specifically, SCN comprises two core components: Class Disambiguation (CD) and Logits Fusion (LF). First, a cross-attention mechanism is utilized to transform the text embeddings into visually aware pseudo-text embeddings, in order to derive an enhanced similarity score that complements the original mask-text similarity score. Subsequently, the Class Disambiguation module captures implicit inter-class dependencies through a residual architecture to effectively resolve semantic ambiguities. Finally, the Logits Fusion module dynamically integrates multifaceted semantic evidence to ensure that the model achieves a robust semantic consensus while maintaining CLIP's inherent generalization capability. Comprehensive experimental results on mainstream benchmarks demonstrate that the proposed method achieves significant performance improvements compared to state-of-the-art algorithms.
- Abstract(参考訳): セマンティックイメージセグメンテーションは,各画素に予め定義されたカテゴリラベルを割り当て,近年大きな進歩を遂げている。
Open-Vocabulary Segmentation (OVS)は、セグメンテーションタスクを固定セットからオープンセットに拡張し、カテゴリ名や記述などの任意のテキスト入力に基づいて、新しい概念の識別とセグメンテーションを可能にする。
本稿では,オープン語彙セマンティックセマンティックセマンティックスセグメンテーションのためのセマンティックキャリブレーションネットワーク(SCN)を提案する。
事前訓練モデルの特徴集約や単純な微調整に焦点を当てた従来のアプローチとは異なり、SCNはクラス間の意味的相関を明示的にモデル化することでマスク分類プロセスを洗練し、事前訓練されたCLIPモデルの一般化能力を効果的に保ちながらモデルの識別力を高めることを目的としている。
具体的には、SCNはクラス曖昧化(CD)とロジッツ融合(LF)の2つのコアコンポーネントから構成される。
まず、クロスアテンション機構を用いて、元のマスクテキスト類似度スコアを補完する拡張類似度スコアを導出するために、テキスト埋め込みを視覚的に認識された擬似テキスト埋め込みに変換する。
その後、Class Disambiguationモジュールは、残存アーキテクチャを通じて暗黙のクラス間の依存関係をキャプチャして、意味的曖昧さを効果的に解決する。
最後に、Logits Fusionモジュールはマルチフェイスセマンティックエビデンスを動的に統合し、CLIP固有の一般化能力を維持しながら、モデルが堅牢なセマンティックコンセンサスを実現する。
提案手法は, 最先端のアルゴリズムと比較して, 大幅な性能向上を実現していることを示す。
関連論文リスト
- A Training-Free Framework for Open-Vocabulary Image Segmentation and Recognition with EfficientNet and CLIP [12.96248884328754]
本稿では,オープンボキャブラリ画像セグメンテーションとオブジェクト認識のための新しい学習自由フレームワークを提案する。
教師なしセグメンテーションには畳み込みニューラルネットワークであるEfficientNetB0を使用し、オープン語彙オブジェクト認識には視覚言語モデルであるCLIPを使用している。
ハンガリーのmIoU、精度、リコール、F1スコアで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-22T07:54:18Z) - Effective SAM Combination for Open-Vocabulary Semantic Segmentation [24.126307031048203]
Open-vocabulary semantic segmentationは、無制限のクラスにわたる画像にピクセルレベルのラベルを割り当てることを目的としている。
ESC-Netは、SAMデコーダブロックを利用してクラスに依存しないセグメンテーションを行う新しい1段オープン語彙セグメンテーションモデルである。
ESC-NetはADE20K、PASCAL-VOC、PASCAL-Contextなどの標準ベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-11-22T04:36:12Z) - Semantic Connectivity-Driven Pseudo-labeling for Cross-domain
Segmentation [89.41179071022121]
自己学習はドメイン間セマンティックセグメンテーションにおいて一般的なアプローチである。
本稿ではセマンティック・コネクティビティ駆動の擬似ラベル方式を提案する。
このアプローチは、接続レベルにおいて擬似ラベルを定式化し、構造的および低雑音のセマンティクスの学習を容易にする。
論文 参考訳(メタデータ) (2023-12-11T12:29:51Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [68.41025728960176]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - Advancing Incremental Few-shot Semantic Segmentation via Semantic-guided
Relation Alignment and Adaptation [98.51938442785179]
増分的な数ショットセマンティックセマンティックセマンティクスは、セマンティクスセマンティクスモデルを新しいクラスに漸進的に拡張することを目的としている。
このタスクは、データ不均衡のため、ベースクラスと新しいクラスの間で深刻な意味認識の問題に直面します。
本稿では,従来の意味情報のガイダンスを完全に考慮した意味誘導型関係調整適応法を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:40:52Z) - Graph Adaptive Semantic Transfer for Cross-domain Sentiment
Classification [68.06496970320595]
クロスドメイン感情分類(CDSC)は、ソースドメインから学んだ伝達可能なセマンティクスを使用して、ラベルなしのターゲットドメインにおけるレビューの感情を予測することを目的としている。
本稿では、単語列と構文グラフの両方からドメイン不変セマンティクスを学習できる適応型構文グラフ埋め込み法であるグラフ適応意味伝達(GAST)モデルを提案する。
論文 参考訳(メタデータ) (2022-05-18T07:47:01Z) - Anti-aliasing Semantic Reconstruction for Few-Shot Semantic Segmentation [66.85202434812942]
セグメンテーションを意味的再構成問題として再検討する。
基本クラスの特徴を,新しいクラス再構築のためのクラスレベルのセマンティック空間にまたがる一連の基底ベクトルに変換する。
提案手法はアンチエイリアス・セマンティック・リストラクション (ASR) と呼ばれ, 数発の学習問題に対して, 体系的かつ解釈可能な解法を提供する。
論文 参考訳(メタデータ) (2021-06-01T02:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。