論文の概要: FMRFusion: Frequency-Aware Multi-View Representation Learning for Heterogeneous Image Fusion
- arxiv url: http://arxiv.org/abs/2606.07985v1
- Date: Sat, 06 Jun 2026 05:23:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.600302
- Title: FMRFusion: Frequency-Aware Multi-View Representation Learning for Heterogeneous Image Fusion
- Title(参考訳): FMRフュージョン:不均一画像融合のための周波数対応多視点表現学習
- Authors: Tao Zhoua, Yunlong Liu, Qinghui Chen, Zekai Zhang, Minlong Sun, Changlin Biana, Dagang Li, Wenmin Wang, Jinglin Zhang,
- Abstract要約: FMRFusionは異種画像融合のための周波数認識型表現学習ネットワークである。
識別構造を捉えるために, マルチスケール構造トラヒック認識モジュールが導入された。
クロスビュー補間相互作用を具体化し、反射光情報と放射強度応答の相補的特性を明示的にモデル化し、融合させる。
- 参考スコア(独自算出の注目度): 22.180711075004538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Infrared and visible image fusion aims to generate a composite image that retains significant target information and preserves detailed textures, integrating two heterogeneous modalities. Previous image fusion methods typically adopt a single-module stacking approach to extract features from the two modalities. However, these approaches may result in incomplete learning of their distinct characteristics, thereby limiting the fusion effectiveness and constrain ing robustness in real-world heterogeneous data scenarios. To address these challenges, we propose FMRFusion, a frequency-aware multi-view representation learning network for Heterogeneous Image Fusion. A Multi-Scale Struc tural Perception Module is introduced to effectively capture discriminative structures, extracting fine-grained local structures and essential contextual information. A bilinear frequency decomposition mechanism is employed to sepa rate features into high-frequency and low-frequency components, enabling joint modeling of local details and global representations across different frequency domains. Moreover, a Cross-View Complementary Interaction is incorpo rated to explicitly model and fuse the complementary characteristics between reflected light information and radiative intensity responses, facilitating effective cross-view interaction. We further improve the Performance of the fused results by flow matching, which progressively refines the fused features by learning the transformation from coarse data to high-quality representations. Extensive experiments conducted on multiple benchmark datasets demonstrate that FMRFusion achieves superior and consistent performance across a range of fusion tasks, especially in nighttime scenarios
- Abstract(参考訳): 赤外線と可視光の融合は、重要なターゲット情報を保持し、詳細なテクスチャを保存し、2つの不均一なモダリティを統合する合成画像を生成することを目的としている。
従来の画像融合法は、通常、2つのモードから特徴を抽出するために単一モジュール積み重ね方式を採用する。
しかし、これらのアプローチは、それらの特徴を不完全に学習し、現実の異種データシナリオにおける融合の有効性と制約的堅牢性を制限する。
これらの課題に対処するために、異種画像融合のための周波数対応多視点表現学習ネットワークであるFMRFusionを提案する。
識別構造を効果的に捉え, きめ細かな局所構造と重要な文脈情報を抽出するために, マルチスケール・ストラクチャー・パーセプション・モジュールが導入された。
双線形周波数分解機構を用いて、特徴を高周波および低周波成分に分解し、異なる周波数領域にわたる局所的詳細と大域的表現の連成モデリングを可能にする。
さらに、クロスビュー補完相互作用を具体化し、反射光情報と放射強度応答の相補的特性を明示的にモデル化し、効果的にクロスビュー相互作用を促進する。
粗いデータから高品質な表現への変換を学習することで、融合した特徴を段階的に洗練するフローマッチングにより、融合した結果の性能をさらに向上する。
複数のベンチマークデータセットで実施された大規模な実験により、FMRFusionは、特に夜間シナリオにおいて、様々な融合タスクにおいて、優れた、一貫したパフォーマンスを達成することが示された。
関連論文リスト
- FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。
MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。
2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-07-26T16:30:18Z) - A Dual Domain Multi-exposure Image Fusion Network based on the
Spatial-Frequency Integration [57.14745782076976]
マルチ露光画像融合は、異なる露光で画像を統合することにより、単一の高ダイナミック画像を生成することを目的としている。
本稿では,MEF-SFI と呼ばれる空間周波数統合フレームワークによるマルチ露光画像融合の新たな視点を提案する。
提案手法は,最先端のマルチ露光画像融合手法に対する視覚的近似核融合結果を実現する。
論文 参考訳(メタデータ) (2023-12-17T04:45:15Z) - AdaFuse: Adaptive Medical Image Fusion Based on Spatial-Frequential
Cross Attention [6.910879180358217]
本稿では,周波数誘導型アテンション機構によりマルチモーダル画像情報を適応的に融合させるAdaFuseを提案する。
提案手法は,視覚的品質と定量的指標の両方の観点から,最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-10-09T07:10:30Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature Ensemble for Multi-modality Image Fusion [68.78897015832113]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。