論文の概要: Prompting Diffusion Models for Zero-Shot Instance Segmentation
- arxiv url: http://arxiv.org/abs/2606.22660v1
- Date: Sun, 21 Jun 2026 20:30:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 07:50:16.011966
- Title: Prompting Diffusion Models for Zero-Shot Instance Segmentation
- Title(参考訳): ゼロショットインスタンスセグメンテーションのための拡散モデル
- Authors: Irem Zeynep Alagöz, Nils Morbitzer, Andrea Ramazzina, Nassir Navab, Federico Tombari, Stefano Gasperini,
- Abstract要約: 本稿では拡散型セグメンテーションのための空間条件付きフレームワークPrompt2Segを提案する。
提案手法は2次元ガウスあるいは信頼マップとして表現された空間的プロンプトを明示的な入力信号として用い,ユーザ意図に直接応答するようにモデルを訓練する。
我々は,標準的なベンチマークから,絵画,エゴ中心ビュー,X線データなど,より困難な領域まで,7つのデータセットを評価した。
- 参考スコア(独自算出の注目度): 74.37083707535778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several disruptive research directions have recently emerged in computer vision, including foundation models achieving previously unseen zero-shot performance in scene understanding, even interactively, and generative models that synthesize extremely realistic images. The latter have also been shown to be highly effective in scene understanding tasks thanks to their rich priors. However, for promptable segmentation, foundation models struggle with accurately segmenting an object's region, leading to false positives and over-segmentation. Notably, early attempts that leverage generative priors use prompts only during post-processing, yielding suboptimal segments because the process is agnostic to the user input. In this paper, we target these limitations with Prompt2Seg, a spatial conditioning framework for diffusion-based segmentation. Prompt2Seg augments a frozen diffusion segmentation model with a conditioning branch. Our approach takes spatial prompts, represented as 2D Gaussians or confidence maps, as explicit input signals, training the model to respond directly to user intent. Fine-tuned on a deliberately constrained set of object categories drawn from Hypersim and Virtual KITTI 2, Prompt2Seg generalizes zero-shot to a wide range of unseen object types and visual domains. We evaluate on seven datasets ranging from standard benchmarks to more challenging domains, including paintings, egocentric views, and X-ray data. Furthermore, we demonstrate that Prompt2Seg consistently outperforms the underlying diffusion segmentation backbone across all benchmarks. Our results suggest that the rich priors encoded in generative pretraining, combined with principled spatial conditioning, offer a compelling path toward broadly generalizing interactive segmentation without large-scale mask supervision.
- Abstract(参考訳): いくつかの破壊的な研究方向が近年コンピュータビジョンに現れており、これまで目に見えないゼロショットのパフォーマンスをシーン理解において達成する基礎モデルや、非常にリアルなイメージを合成する生成モデルなどがある。
後者は、より豊かな先行性のおかげで、シーン理解タスクに非常に効果的であることが示されている。
しかし、素早いセグメンテーションでは、ファンデーションモデルはオブジェクトの領域を正確にセグメンテーションすることに苦労し、偽陽性と過剰なセグメンテーションをもたらす。
特に、生成前処理を利用する初期の試みでは、プロセスがユーザ入力に依存しないため、後処理のみにプロンプトを使用し、最適でないセグメントを生成する。
本稿では,拡散型セグメンテーションのための空間条件付きフレームワークであるPrompt2Segを用いて,これらの制約を対象とする。
Prompt2Segは条件分岐を伴う凍結拡散セグメンテーションモデルを強化する。
提案手法は2次元ガウスあるいは信頼マップとして表現された空間的プロンプトを明示的な入力信号として用い,ユーザ意図に直接応答するようにモデルを訓練する。
HypersimとVirtual KITTI 2から引き出された、意図的に制約されたオブジェクトカテゴリのセットに微調整されたPrompt2Segは、ゼロショットを広範囲の見えないオブジェクトタイプと視覚ドメインに一般化する。
我々は,標準的なベンチマークから,絵画,エゴ中心ビュー,X線データなど,より困難な領域まで,7つのデータセットを評価した。
さらに、Prompt2Segは全てのベンチマークで基礎となる拡散セグメンテーションのバックボーンを一貫して上回っていることを示す。
以上の結果から,生成前訓練で符号化された豊富な事前学習と空間条件の原則が組み合わさって,大規模なマスク監視を伴わずに,対話的セグメンテーションを広範に一般化するための有力な道筋が示唆された。
関連論文リスト
- Diffusion Model as a Generalist Segmentation Learner [44.5756731086797]
本稿では、事前学習した拡散モデルを統一されたフレームワークに再利用するDiGSeg(Diffusion Models as a Generalist Learner)を紹介する。
並列CLIP対応のテキストパスは、複数のスケールで言語機能を注入し、クエリと進化する視覚的表現との整合を可能にする。
この設計は、既製の拡散バックボーンを普遍的なインターフェースに変換し、外観と任意のテキストプロンプトの両方に条件付けされた構造化セグメンテーションマスクを生成する。
論文 参考訳(メタデータ) (2026-04-27T15:04:13Z) - Making Training-Free Diffusion Segmentors Scale with the Generative Power [118.72472901404814]
一連の研究は、事前学習された拡散モデルを、それ以上の訓練をせずに意味的セグメンテーションに適応することに焦点を当てている。
本稿では,自動アグリゲーションと画素単位の再スケーリングという2つの手法を提案する。
論文 参考訳(メタデータ) (2026-03-06T11:35:37Z) - ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations [33.74746234704817]
ビデオオブジェクトセグメンテーション(RVOS)は、テキスト記述に基づいて、ビデオ全体を通してターゲットオブジェクトをセグメンテーションすることを目的としている。
これは、深い視覚レベルの理解、ピクセルレベルの高密度な予測、時間的推論を含むため、難しい。
基礎的な視覚基盤モデルから領域レベルの視覚テキストアライメントを継承するbfReferDINO RVOSを提案する。
論文 参考訳(メタデータ) (2025-01-24T16:24:15Z) - ZoRI: Towards Discriminative Zero-Shot Remote Sensing Instance Segmentation [23.40908829241552]
本稿では,訓練データに欠落した空中物体を特定することを目的とした,ゼロショットリモートセンシングインスタンスセグメンテーションという新しいタスクを提案する。
我々は,事前学習された視覚言語アライメントを維持するために,意味関連情報を分離する知識注入型適応戦略を導入する。
我々は,新しい実験プロトコルとベンチマークを構築し,ZoRIが最先端の性能を達成することを実証する広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-12-17T11:00:56Z) - FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation [47.0028071183214]
FrozenSegは、局所化基盤モデル(SAMなど)とViLモデル(CLIPなど)から抽出した意味知識から空間知識を統合するように設計されている。
FrozenSegは、さまざまなセグメンテーションベンチマークにまたがって最先端の結果を前進させ、COCOパン光学データのみにトレーニングし、ゼロショットでテストする。
論文 参考訳(メタデータ) (2024-09-05T13:36:50Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。