論文の概要: FUSE: Frequency-domain Unification and Spectral Energy Alignment for Multi-modal Object Re-Identification
- arxiv url: http://arxiv.org/abs/2606.20044v1
- Date: Thu, 18 Jun 2026 10:21:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.791855
- Title: FUSE: Frequency-domain Unification and Spectral Energy Alignment for Multi-modal Object Re-Identification
- Title(参考訳): FUSE:マルチモーダル物体再同定のための周波数領域統一とスペクトルエネルギーアライメント
- Authors: Xuanhao Qi, Tom H. Luan, Yukang Zhang, Jinkai Zheng, Zhou Su, Shuwei Li, Lei Tan,
- Abstract要約: 本稿では,多モードReIDをスペクトル歪みとエネルギーアライメントの2段階プロセスとして再構成する周波数領域フレームワークであるFUSEを紹介する。
提案したスペクトル分解モジュールは、機能を低、中、高周波サブ空間に適応的に分割する。
RGBNT201、RGBNT100、MSVR310の実験では、FUSEは9.1% mAPと9.5% Rank-1の改善を達成した。
- 参考スコア(独自算出の注目度): 41.52868809663972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant progress in multi-modal Re-Identification (ReID), existing methods tend to emphasize low-frequency cues. Consequently, they focus on attributes such as color, illumination, and coarse appearance, while overlooking mid and high-frequency structures that encode geometric, textural, and identity-discriminative details. This imbalance leads to incomplete spectral representations and unstable cross-modal alignment. To overcome these limitations, we introduce FUSE, a frequency-domain framework that reformulates multi-modal ReID as a two-stage process of spectral disentanglement and energy alignment. The proposed Spectral Decomposition Module (SDM) adaptively partitions features into low, mid, and high-frequency subspaces, enabling hierarchical spectral modeling. The Cross-Modal Alignment Module (CAM) further enforces energy alignment and subspace complementarity across modalities via frequency-consistency regularization. In addition, FUSE incorporates learnable frequency modulation to enhance robustness under varying illumination and heterogeneous sensor conditions. Extensive experiments on RGBNT201, RGBNT100, and MSVR310 show that FUSE achieves 9.1\% mAP and 9.5\% Rank-1 improvements, establishing an interpretable frequency-domain paradigm for multi-modal representation learning.
- Abstract(参考訳): ReID(Multi-modal Re-Identification)の進歩にもかかわらず、既存の手法は低周波キューを強調する傾向にある。
その結果、色、照明、粗い外観などの属性に焦点が当てられ、幾何学的、テクスチュラル、アイデンティティを識別する細部を符号化する中・高周波構造を見渡せるようになった。
この不均衡は、不完全なスペクトル表現と不安定なクロスモーダルアライメントをもたらす。
これらの制限を克服するために、スペクトルの歪みとエネルギーのアライメントの2段階プロセスとしてマルチモーダルReIDを再構成する周波数領域フレームワークであるFUSEを導入する。
提案したスペクトル分解モジュール(SDM)は、特徴を低、中、高周波サブ空間に適応的に分割し、階層的なスペクトルモデリングを可能にする。
CAM(Cross-Modal Alignment Module)は、周波数整合正則化により、モダリティ間のエネルギーアライメントと部分空間の相補性をさらに強化する。
さらに、FUSEは学習可能な周波数変調を導入し、様々な照明および異種センサ条件下で堅牢性を高める。
RGBNT201、RGBNT100、MSVR310の大規模な実験により、FUSEは9.1\% mAPと9.5\% Rank-1の改善を実現し、マルチモーダル表現学習のための解釈可能な周波数領域パラダイムを確立した。
関連論文リスト
- Phy-CoSF: Physics-Guided Continuous Spectral Fields Reconstruction and Super-Resolution for Snapshot Compressive Imaging [79.35520607451187]
暗黙のニューラル表現で深層展開ネットワークを相乗化するPhy-CoSFを提案する。
具体的には、連続的なスペクトルレンダリングで離散波長トレーニングをブリッジする2相アーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-05-13T14:17:02Z) - SpectralMamba-UNet: Frequency-Disentangled State Space Modeling for Texture-Structure Consistent Medical Image Segmentation [14.42559964239819]
本稿ではスペクトル領域における構造情報とテクスチャ情報の学習を分離するためにSpectralMamba-UNetを提案する。
5つの公開ベンチマークの実験では、様々なモダリティとセグメンテーションターゲットに対して一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-02-26T15:17:42Z) - Structured Spectral Reasoning for Frequency-Adaptive Multimodal Recommendation [13.886659472425393]
マルチモーダルレコメンデーションは、視覚情報やテキスト情報などの異種コンテンツと協調的な信号を統合することを目的としている。
これらの問題は、しばしば単純融合や浅いモデリング戦略によって悪化し、一般化の低下とロバスト性の低下につながる。
周波数対応マルチモーダルレコメンデーションのための構造化スペクトル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-01T07:39:28Z) - SpectrumFM: Redefining Spectrum Cognition via Foundation Modeling [65.65474629224558]
本稿ではスペクトル認識のための新しいパラダイムを提供するスペクトルFMと呼ばれるスペクトル基盤モデルを提案する。
畳み込みニューラルネットワークを利用した革新的なスペクトルエンコーダを提案し、スペクトルデータにおける微細な局所信号構造と高レベルのグローバルな依存関係の両方を効果的に捕捉する。
2つの新しい自己教師型学習タスク、すなわちマスク付き再構成と次のスロット信号予測が、SpectrumFMの事前学習のために開発され、モデルがリッチで伝達可能な表現を学習できるようにする。
論文 参考訳(メタデータ) (2025-08-02T14:40:50Z) - PAD: Phase-Amplitude Decoupling Fusion for Multi-Modal Land Cover Classification [49.37555541088792]
位相振幅デカップリング(PAD)は、位相(モダリティ共有)と振幅(モダリティ補完)を分離する周波数対応のフレームワークである。
この研究は、リモートセンシングにおける物理を意識したマルチモーダル融合の新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-04-27T07:21:42Z) - Frequency Domain Modality-invariant Feature Learning for
Visible-infrared Person Re-Identification [79.9402521412239]
本稿では、周波数領域から見たモダリティの相違を低減するために、新しい周波数領域モダリティ不変特徴学習フレームワーク(FDMNet)を提案する。
我々のフレームワークでは、インスタンス適応振幅フィルタ(IAF)とPhrase-Preserving Normalization(PPNorm)という、2つの新しいモジュールを導入している。
論文 参考訳(メタデータ) (2024-01-03T17:11:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。