論文の概要: Prompt-Calibrated SAM 3 for Open-Vocabulary Remote Sensing Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2606.21863v1
- Date: Sat, 20 Jun 2026 04:05:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 02:36:53.713183
- Title: Prompt-Calibrated SAM 3 for Open-Vocabulary Remote Sensing Semantic Segmentation
- Title(参考訳): Prompt-Calibrated SAM 3 for Open-Vocabulary Remote Sensing Semantic Segmentation
- Authors: Yanghui Song, Nanqing Liu, Haonan Yin, Yingjie Gao, Chengfu Yang, Qi Ming,
- Abstract要約: 本稿では, SAM 3 のプロンプトインタフェースをリモートセンシング用 OVSS に校正する ProC-SAM3 を提案する。
ProC-SAM3 は平均 mIoU を56.1% で達成し、以前の最高のトレーニングフリー法よりも3.9 ポイント向上した。
- 参考スコア(独自算出の注目度): 8.872901416973985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary semantic segmentation (OVSS) in remote sensing images aims to segment categories beyond a fixed label space. Recent SAM 3-based methods provide a promising training-free foundation, yet three key issues remain: (1) a single class-name prompt lacks sufficient semantic coverage for complex remote sensing categories; (2) expanding each category into multiple prompts introduces redundant online text encoding; and (3) directly aggregating multiple prompt responses propagates noisy activations into the final prediction. To address these issues, we propose ProC-SAM3, which calibrates SAM 3's prompt interface for remote sensing OVSS from three complementary aspects. First, we construct an offline prompt pool where a Category Matcher groups MLLM-generated candidates into per-category sets, and Expansion Constraints further refine each set using category-specific prior knowledge. Second, the resulting text embeddings are cached and reused across all test images, eliminating repeated text encoding. Third, we introduce Presence-Guided Residual Fusion to gate unreliable decoder outputs by prompt presence and confidence, followed by peak-preserving class aggregation that retains fine-grained activations for small and sparse objects. Experiments on eight benchmarks show that ProC-SAM3 achieves an average mIoU of 56.1%, outperforming the previous best training-free method by 3.9 percentage points. Code will be available at https://github.com/YanghuiSong/ProC-SAM3.
- Abstract(参考訳): リモートセンシング画像におけるオープンボキャブラリセマンティックセグメンテーション(OVSS)は、固定ラベル空間を超えてカテゴリをセグメンテーションすることを目的としている。
最近のSAM3ベースの手法は、有望なトレーニングフリー基盤を提供するが、(1)複雑なリモートセンシングカテゴリに対して、単一のクラス名プロンプトは十分な意味的カバレッジを欠いている、(2)各カテゴリを複数のプロンプトに拡張すると、冗長なオンラインテキストエンコーディングが導入される、(3)複数のプロンプト応答を直接集約することで、最終的な予測にノイズのアクティベーションが伝播する、という3つの大きな問題が残る。
これらの課題に対処するため,3つの相補的な側面から,SAM 3のプロンプトインタフェースをリモートセンシングするProC-SAM3を提案する。
まず、カテゴリマッチングが生成した候補をカテゴリ毎にグループ化するオフラインプロンプトプールを構築し、拡張制約はカテゴリ固有の事前知識を用いて各セットをさらに洗練する。
第二に、結果のテキスト埋め込みは、すべてのテストイメージにキャッシュされ、再利用され、繰り返しのテキストエンコーディングが不要になる。
第三に、Presence-Guided Residual Fusionを導入し、信頼できないデコーダ出力を即時存在と自信でゲートし、続いて、小さくスパースなオブジェクトに対してきめ細かいアクティベーションを保持するピーク保存クラスアグリゲーションを発生させる。
8つのベンチマーク実験により、ProC-SAM3は56.1%の平均mIoUを達成し、以前の最高のトレーニング不要の手法を3.9%上回った。
コードはhttps://github.com/YanghuiSong/ProC-SAM3.comから入手できる。
関連論文リスト
- ActiveSAM: Image-Conditional Class Pruning for Fast and Accurate Open-Vocabulary Segmentation [40.432049062995326]
トレーニング不要のゼロショット推論フレームワークであるActiveSAMを紹介し、SAM 3をアクティブ語彙セグメンタにする。
8つのOVSSベンチマークで、ActiveSAMはトレーニング不要なオープン語彙セマンティックセマンティックセグメンテーションの速度と精度のトレードオフを改善している。
ActiveSAMは、自律運転や組み込みAIといったノイズの多い入力ドメインへのデプロイメントに適している。
論文 参考訳(メタデータ) (2026-06-15T17:31:30Z) - CLIP-Guided SAM: Parameter-Efficient Semantic Conditioning for Promptable Segmentation [6.517222960194991]
内部的セマンティック・コンディショニングに基づくパラメータ効率のセグメンテーションフレームワークであるCLIP-Guided SAMを提案する。
セマンティック信号のみを使用してプロンプトを生成する代わりに、CLIP由来のテキスト、ビジョン、および類似機能をSAMの画像エンコーダに直接注入する。
我々のフレームワークは低ラベルデータ設定用に設計されており、汎用ベンチマークと特化下流タスクの両方に適用できる。
論文 参考訳(メタデータ) (2026-05-24T01:40:30Z) - SegRAG: Training-Free Retrieval-Augmented Semantic Segmentation [13.665861251747144]
SegRAGは、トレーニング不要の検索拡張セグメンテーションフレームワークである。
SAM3には、DINOv3機能バンクから派生したクラス固有のポイントプロンプトがある。
4つの標準ベンチマークでは、SegRAGはテキストのみのベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-05-17T19:51:32Z) - SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images [51.42466259821335]
我々は, SAM 3 をリモートセンシング OVSS タスクに適用するための予備的な検討を行った。
まず,SAM 3のセマンティックセグメンテーションヘッドとトランスフォーマーデコーダの出力を組み合わせたマスク融合戦略を実装した。
第2に、シーンに存在しないカテゴリをフィルタリングするために、プレゼンスヘッドからのプレゼンススコアを利用する。
論文 参考訳(メタデータ) (2025-12-09T15:42:28Z) - SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。
本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。
実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文 参考訳(メタデータ) (2024-07-23T17:47:25Z) - SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding [56.079013202051094]
ボックスレベルのアノテーションを信号として転送する新しい手法であるSegVGを提案する。
このアプローチでは,ボックスレベルのレグレッションとピクセルレベルのセグメンテーションの両方の信号としてアノテーションを反復的に利用することができる。
論文 参考訳(メタデータ) (2024-07-03T15:30:45Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。