論文の概要: DifferSeg: Towards Diverse Multimodal Binary Segmentation via Differential Perception and Frequency Guidance
- arxiv url: http://arxiv.org/abs/2606.08906v1
- Date: Mon, 08 Jun 2026 01:10:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.559429
- Title: DifferSeg: Towards Diverse Multimodal Binary Segmentation via Differential Perception and Frequency Guidance
- Title(参考訳): DifferSeg: 差分知覚と周波数誘導による多モードバイナリセグメンテーションに向けて
- Authors: Qiangqiang Zhou, Jiawei Xu, Yong Chen, Dandan Zhu, Yugen Yi, Xiaoqi Zhao,
- Abstract要約: DifferSegは単純だが汎用的なマルチモーダルバイナリセグメンテーションフレームワークである。
学習可能な微分作用素を用いて、多モーダルな特徴を適応的に整列し、相補性を高める。
29の公開データセットにわたって67の最先端メソッドを一貫して超えている。
- 参考スコア(独自算出の注目度): 17.49886552219562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many binary segmentation tasks, most multimodal methods rely on fixed feature concatenation for cross-modal interaction and straightforward decoder designs dominated by low-frequency semantics. %ToDO: % However, they ignore two key challenges: one is the lack of an adaptive mechanism to handle modality discrepancies and complementarity, and the other is the absence of an efficient decoding strategy to balance both high- and low-frequency representations. % In this work, we propose a simple yet general multimodal binary segmentation framework, termed DifferSeg, to address both problems simultaneously. With the help of the differential perception fusion (DPF) module, DifferSeg employs learnable differential operators to adaptively align multimodal features and enhance their complementarity through residual fusion, effectively mitigating modality mismatch and fusion redundancy. % In addition, we design a frequency-guided decoder (FGD) that builds cross-frequency interactions and multi-path upsampling to maintain consistency between detailed high-frequency structures and semantic low-frequency representations, ensuring fine-grained boundary recovery and noise suppression. % Benefiting from these designs, DifferSeg can be easily generalized to diverse binary segmentation tasks, including both natural and medical modalities. Without bells and whistles, it consistently surpasses 67 state-of-the-art methods across 29 public datasets involving 18 downstream tasks, demonstrating superior generalization and segmentation accuracy.Code and pretrained models will be available at the Link.
- Abstract(参考訳): 多くのバイナリセグメンテーションタスクでは、ほとんどのマルチモーダルメソッドは、クロスモーダル相互作用と低頻度セマンティクスに支配される単純なデコーダ設計のための固定された特徴結合に依存している。
%ToDO: % しかし、それらは2つの主要な課題を無視している: 1つは、モダリティの相違と相補性を扱う適応メカニズムの欠如、もう1つは高頻度と低周波の両表現のバランスをとる効率的な復号戦略の欠如である。
本研究では,両問題に同時に対処するために,DifferSegと呼ばれる,単純だが汎用的な多モードバイナリセグメンテーションフレームワークを提案する。
差分認識融合(DPF)モジュールの助けを借りて、DifferSegは学習可能な微分演算子を用いて多重モーダル特徴を適応的に整列し、残差融合を通じて相補性を向上し、モダリティミスマッチと融合冗長性を効果的に緩和する。
%) の高周波数構造とセマンティック低周波表現との整合性を維持し, きめ細かい境界回復と雑音抑圧を確保するために, クロス周波数相互作用とマルチパスアップサンプリングを構築する周波数誘導デコーダ(FGD)を設計する。
% がこれらの設計に適合しており、ディファセグは自然と医療の両方のモダリティを含む様々な二分法タスクに容易に一般化できる。
ベルとホイッスルなしでは、18のダウンストリームタスクを含む29のパブリックデータセットで67の最先端メソッドを一貫して上回り、より優れた一般化とセグメンテーション精度を示す。コードと事前トレーニングされたモデルはLinkで利用可能になる。
関連論文リスト
- Complementarity-Supervised Spectral-Band Routing for Multimodal Emotion Recognition [60.20529806857076]
マルチモーダル感情認識は、テキスト、ビデオ、音声などの手がかりを融合させ、個人の感情状態を理解する。
従来の手法では、機械的に独立な単調なパフォーマンスに依存することと、感情タスクで要求されるきめ細かい表現と相反する粗粒の融合という2つの主な制限に直面していた。
我々は,マルチスケールバンド分解とエキスパートコラボレーションを通じて,微細な相補的特徴をモデル化するために,Atsukoという名前のComplementarity-Supervised Multi-Band Expert Networkを提案する。
論文 参考訳(メタデータ) (2026-03-07T03:58:48Z) - Feature-level Interaction Explanations in Multimodal Transformers [1.7101146971136896]
マルチモーダルトランスフォーマーは、異なるモーダルが共同で意思決定をどのように支援するかを明確にすることなく、予測を生成する。
本稿では,凍結した事前学習エンコーダからトークン/パッチシーケンスを直接操作する構造化Mixture-of-Experts層であるFeature-level I2MoEを提案する。
我々は,帰属とトップK%マスキングを組み合わせ,忠実度を評価する専門的な説明パイプラインを開発する。
論文 参考訳(メタデータ) (2026-03-04T18:24:31Z) - Multi-Level Bidirectional Decoder Interaction for Uncertainty-Aware Breast Ultrasound Analysis [2.8218290601001854]
乳房超音波検査では,同時性病変の分節と組織分類が必要である。
マルチレベルデコーダインタラクションと不確実性を考慮した適応調整により,これらの制約に対処するマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-01T22:02:06Z) - Test-time Adaptive Hierarchical Co-enhanced Denoising Network for Reliable Multimodal Classification [55.56234913868664]
マルチモーダルデータを用いた信頼性学習のためのTAHCD(Test-time Adaptive Hierarchical Co-enhanced Denoising Network)を提案する。
提案手法は,最先端の信頼性の高いマルチモーダル学習手法と比較して,優れた分類性能,堅牢性,一般化を実現する。
論文 参考訳(メタデータ) (2026-01-12T03:14:12Z) - UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。
階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。
我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文 参考訳(メタデータ) (2025-09-19T17:29:25Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。