論文の概要: SemDINO: A DINOv3-Driven Network for Cross-Temporal Semantic Alignment in Change Detection
- arxiv url: http://arxiv.org/abs/2606.09772v1
- Date: Mon, 08 Jun 2026 17:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.595372
- Title: SemDINO: A DINOv3-Driven Network for Cross-Temporal Semantic Alignment in Change Detection
- Title(参考訳): SemDino: 変更検出における時間的セマンティックアライメントのためのDINOv3駆動ネットワーク
- Authors: Xinyu Tong, Meihua Zhou, Jinxiao Sun, Yingjie Tang, Lei Wang,
- Abstract要約: SemDINOは、エンドツーエンドのセマンティックチェンジ検出ネットワークである。
デュアルブランチエンコーダ、マルチスケールの時間的相互作用、意味的浄化、変更の強化、分離されたマルチタスク予測を統合している。
パブリックリモートセンシングCDデータセットの実験により、SemDINOは最先端の手法に対して優れた性能と一般化能力を発揮することが示された。
- 参考スコア(独自算出の注目度): 5.181191495929067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic change detection (SCD) aims to simultaneously locate land-cover changes and identify semantic categories before and after transition. However, existing methods suffer from insufficient cross-temporal alignment, weak multi-scale representation, and poor robustness to pseudo-changes caused by illumination, season, and registration noise. To address these issues, we propose a novel end-to-end semantic change detection network named SemDINO, which integrates a dual-branch encoder, multi-scale temporal interaction, semantic purification, change enhancement, and decoupled multi-task prediction into a unified framework. Specifically, we construct a dual-branch encoder that combines a CNN backbone and frozen DINOv3 features via gated pyramid fusion, enabling rich multi-scale semantic representation. Then, a multi-scale temporal bidirectional transformer interaction (M-TBTT) module is proposed to achieve global cross-temporal feature alignment and information interaction. To further enhance genuine changes and suppress pseudo-variations, we introduce semantic purification (SCP), bidirectional change enhancement (BiChangeEnhance), and multi-scale change enhancement (MCE) modules collaboratively. Finally, a multi-branch CD prediction head is designed to jointly output binary change mask, bi-temporal semantic maps, and edge constraint. Extensive experiments on public remote sensing CD datasets demonstrate that SemDINO achieves superior performance and generalization ability against state-of-the-art methods, especially in complex scenarios with interference factors.
- Abstract(参考訳): セマンティック・チェンジ検出(SCD)は、土地被覆変化を同時に検出し、移行前後のセマンティック・カテゴリを特定することを目的としている。
しかし,既存の手法では,照明,季節,登録音による擬似変化に対する時間的アライメントの不足,マルチスケール表現の弱さ,ロバスト性に悩まされている。
これらの問題に対処するために,セムディノという新たなエンドツーエンドの意味変化検出ネットワークを提案する。このネットワークは,デュアルブランチエンコーダ,マルチスケールの時間的相互作用,意味的浄化,変更の強化,マルチタスク予測の分離を統合フレームワークに統合する。
具体的には、CNNバックボーンと凍結したDINOv3機能を組み合わせた二重分岐エンコーダをゲートピラミッド融合により構築し、リッチなマルチスケールセマンティック表現を実現する。
そして,グローバルな時間的特徴アライメントと情報インタラクションを実現するために,マルチスケールの時間的双方向トランスフォーマーインタラクション(M-TBTT)モジュールを提案する。
真の変化をさらに強化し、擬似変分を抑制するために、セマンティックパーフィケーション(SCP)、双方向変分エンハンス(BiChangeEnhance)、マルチスケール変分エンハンス(MCE)モジュールを協調的に導入する。
最後に、マルチブランチCD予測ヘッドは、バイナリ変更マスク、バイテンポラルセマンティックマップ、エッジ制約を共同で出力するように設計されている。
パブリックリモートセンシングCDデータセットに関する大規模な実験により、SemDINOは、特に干渉要因のある複雑なシナリオにおいて、最先端の手法に対して優れた性能と一般化能力を達成することが示された。
関連論文リスト
- HiSem: Hierarchical Semantic Disentangling for Remote Sensing Image Change Captioning [30.51174005122181]
リモートセンシング画像変化キャプション(RSICC)は、両時間画像間の真の変化の高レベルなセマンティック理解を実現することを目的としている。
既存の手法は、共有モデリングの前提によって根本的に制限されている。
本稿では,異なる粒度のセマンティック表現を明示的に切り離す階層型セマンティックディスタングルネットワーク(HiSem)を提案する。
論文 参考訳(メタデータ) (2026-05-14T16:23:16Z) - TaCo: Capturing Spatio-Temporal Semantic Consistency in Remote Sensing Change Detection [54.22717266034045]
Ta-Coは時間的意味遷移のための一貫したセマンティックネットワークである。
我々は,Ta-Coがリモートセンシング検出タスクにおいて一貫したSOTA性能を実現することを示す。
この設計は推論中に余分な計算オーバーヘッドを伴わずにかなりの利得を得ることができる。
論文 参考訳(メタデータ) (2025-11-25T13:44:29Z) - Morphing Through Time: Diffusion-Based Bridging of Temporal Gaps for Robust Alignment in Change Detection [51.56484100374058]
既存の変更検出ネットワークを変更することなく空間的・時間的ロバスト性を改善するモジュールパイプラインを導入する。
拡散モジュールは、大きな外観ギャップをブリッジする中間変形フレームを合成し、RoMaは段階的に対応を推定できる。
LEVIR-CD、WHU-CD、DSIFN-CDの実験は、登録精度と下流変化検出の両方において一貫した利得を示した。
論文 参考訳(メタデータ) (2025-11-11T08:40:28Z) - ChangeBind: A Hybrid Change Encoder for Remote Sensing Change Detection [16.62779899494721]
変化検出(CD)は、異なる時刻スタンプで同じ地理的領域間の意味的変化を検出することを目的とした、リモートセンシング(RS)の基本課題である。
本稿では,バイテンポラルRS画像における意味変化をエンコードする,効果的なSiameseベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-26T17:47:14Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Transformer-based Multimodal Change Detection with Multitask Consistency Constraints [10.906283981247796]
現在の変化検出方法は、意味変化検出タスクと高さ変化検出タスクのマルチタスク競合に対処する。
そこで我々は,クロスアテンションにより,多次元入力間の共有表現を学習する効率的なトランスフォーマーネットワークを提案する。
提案手法は,5つの現状変化検出手法と比較して,意味的および高さ変化検出の観点から,一貫したマルチタスク優位性を示す。
論文 参考訳(メタデータ) (2023-10-13T17:38:45Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。