論文の概要: Sub-Semantic Image Segmentation
- arxiv url: http://arxiv.org/abs/2606.14754v1
- Date: Sun, 07 Jun 2026 18:39:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.043448
- Title: Sub-Semantic Image Segmentation
- Title(参考訳): サブセマンティック・イメージ・セグメンテーション
- Authors: Aviad Cohen Zada, Nadav Orenstein, Shai Avidan, Gal Oren,
- Abstract要約: 本稿では,この2つの境界線を曖昧にするサブセマンティックなイメージセグメンテーションの新たなカテゴリを提案する。
サブセマンティックなイメージセグメンテーションでは、言語はオブジェクト全体の命名には使われない。代わりに、画像は言語によって記述できる安定した外観パターンに分割するために使用される。
- 参考スコア(独自算出の注目度): 13.414225469091724
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Images can be segmented based on visual cues (i.e., texture segmentation) or into objects (i.e., semantic segmentation). We propose a new category of sub-semantic image segmentation that blurs the line between the two. In sub-semantic image segmentation, language is not used to name whole objects. Instead, it is used to partition an image into stable appearance patterns that can be described by language. To do that, we couple a general-purpose vision-language model to SAM 3, a promptable segmentation backbone whose native text pathway can ground rich descriptions into masks. Simple coupling fails for a number of reasons that we identify in the paper, and we overcome them by introducing DETECTURE that resolves three concrete failure modes -- language leakage between texture regions, prompt competition inside the segmentation backbone, and semantic distortion at the language-to-mask interface. Since there is no dataset of sub-semantic image segmentation, we introduce one, termed TextureADE. The new dataset is derived from the ADE20K dataset using a system we designed. We compare DETECTURE to a number of baselines and find that it achieves the strongest performance on several datasets using different metrics. Code is available at https://github.com/Scientific-Computing-Lab/TextureDetecture.
- Abstract(参考訳): 画像は視覚的手がかり(テクスチャセグメンテーション)やオブジェクト(セマンティックセグメンテーション)に基づいてセグメント化することができる。
本稿では,この2つの境界線を曖昧にするサブセマンティックなイメージセグメンテーションの新たなカテゴリを提案する。
サブセマンティックなイメージセグメンテーションでは、言語はオブジェクト全体の命名には使われない。
代わりに、イメージを言語で記述できる安定した外観パターンに分割するために使用される。
そこで本研究では,汎用視覚言語モデルであるSAM 3を,ネイティブテキストパスが豊富な記述をマスクに埋め込むことができるような,プロンプト可能なセグメンテーションバックボーンに結合する。
単純な結合は、私たちが論文で特定したいくつかの理由により失敗し、テクスチャ領域間の言語リーク、セグメンテーションバックボーン内の競合の促進、言語とタスクインターフェースにおける意味的な歪みといった、3つの具体的な障害モードを解決したDETECTUREを導入して、それらを克服する。
サブセマンティックなイメージセグメンテーションのデータセットが存在しないため、TextureADEというサブセマンティックなイメージセグメンテーションを導入する。
新しいデータセットは、私たちが設計したシステムを使用してADE20Kデータセットから派生したものです。
DETECTUREをいくつかのベースラインと比較し、異なるメトリクスを使用して複数のデータセット上で最強のパフォーマンスを達成することを発見した。
コードはhttps://github.com/Scientific-Computing-Lab/TextureDetectureで入手できる。
関連論文リスト
- Text4Seg++: Advancing Image Segmentation via Generative Language Modeling [52.07442359419673]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムを提案する。
鍵となる革新はセグメンテーションマスクの新しいテキスト表現であるセグメンテーション記述子である。
自然およびリモートセンシングデータセットの実験は、Text4Seg++が最先端モデルよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2025-09-08T04:07:14Z) - LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - Text and Click inputs for unambiguous open vocabulary instance
segmentation [21.03169732771627]
そこで本研究では,画像入力としてモデルが取る新たなセグメンテーションプロセスであるText + Clickと,セグメンテーションにクラスを記述するテキストフレーズと,セグメンテーションにインスタンスを指定する1つのフォアグラウンドクリックを提案する。
ユーザが指定した1つのフォアグラウンドクリックとテキストプロンプトを組み合わせることで、モデルの重複や共起のセマンティックカテゴリをより曖昧にすることができることを示す。
論文 参考訳(メタデータ) (2023-11-24T19:37:57Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Hierarchical Open-vocabulary Universal Image Segmentation [48.008887320870244]
Open-vocabulary Image segmentationは、任意のテキスト記述に従ってイメージをセマンティック領域に分割することを目的としている。
我々は,「モノ」と「スタッフ」の双方に対して,分離されたテキストイメージ融合機構と表現学習モジュールを提案する。
HIPIE tackles, HIerarchical, oPen-vocabulary, unIvErsal segmentation task in a unified framework。
論文 参考訳(メタデータ) (2023-07-03T06:02:15Z) - Learning to Generate Text-grounded Mask for Open-world Semantic
Segmentation from Only Image-Text Pairs [10.484851004093919]
我々は,任意の視覚概念をイメージに分割する学習を目的とした,オープンワールドセマンティックセマンティックセマンティックセマンティクスに取り組む。
既存のオープンワールドセグメンテーション手法は、多様な視覚概念を学習するためにコントラッシブラーニング(CL)を採用することで、目覚ましい進歩を見せている。
そこで本研究では,モデルが地域テキストアライメントを直接学習することのできる,新しいテキストグラウンド・コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-01T18:59:03Z) - StructToken : Rethinking Semantic Segmentation with Structural Prior [14.056789487558731]
本稿では,構造認識抽出というセマンティックセグメンテーションの新しいパラダイムを提案する。
その特徴から各カテゴリの構造情報を段階的に抽出することを目的とした,一連の学習された構造トークンと画像特徴との相互作用によるセグメンテーション結果を生成する。
私たちのStructTokenは、ADE20K、Cityscapes、COCO-Stuff-10Kなど、広く使われている3つのベンチマークにおいて、最先端のベンチマークを上回っています。
論文 参考訳(メタデータ) (2022-03-23T17:58:31Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。