論文の概要: Context-Guided Semantic Alignment for Feature Fusion Networks
- arxiv url: http://arxiv.org/abs/2606.14005v1
- Date: Fri, 12 Jun 2026 00:54:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.69955
- Title: Context-Guided Semantic Alignment for Feature Fusion Networks
- Title(参考訳): 特徴核融合ネットワークのためのコンテキストガイド型セマンティックアライメント
- Authors: Hyungseop Lee, Jiho Lee, Woochul Kang,
- Abstract要約: Feature Interaction NEtwork (FINE) は、機能融合ネットワークのための軽量なセマンティックアライメントモジュールである。
融合前にクロスレベルアテンションを使用して、高レベルのコンテキストガイダンスを通じて低レベルの機能を洗練する。
効率を損なうことなく、常に検出精度を向上する。
- 参考スコア(独自算出の注目度): 9.303501974597548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature fusion networks are fundamental components in modern object detectors, aggregating multi-scale features to detect objects of varying sizes. However, directly fusing features from different pyramid levels often introduces semantic inconsistency due to their heterogeneous representations. In this paper, we propose Feature Interaction NEtwork (FINE), a lightweight semantic alignment module that refines low-level features via high-level contextual guidance using cross-level attention prior to fusion. To bridge the structural gap and ensure computational efficiency, we introduce an Alignment-Aware Token Sampling that aligns corresponding spatial regions across scales, reducing the attention complexity by an order of magnitude. The resulting attention weights generate a spatial-channel modulation map that is upsampled and applied to the low-level features via residual element-wise modulation. This mechanism ensures that the network selectively enhances semantically relevant pixels while preserving the sub-pixel localization accuracy necessary for dense prediction tasks. FINE is generally applicable to various detectors and consistently improves detection accuracy without compromising efficiency.
- Abstract(参考訳): 特徴融合ネットワークは、様々な大きさの物体を検出するために、複数の大規模特徴を集約する、現代の物体検出器の基本的な構成要素である。
しかし、異なるピラミッドレベルの特徴を直接融合させると、不均一な表現のために意味的不整合が生じることが多い。
本稿では,FINE(Feature Interaction NEtwork)を提案する。FINE(Feature Interaction NEtwork)は,統合前のクロスレベルアテンションを用いて,高レベルなコンテキストガイダンスによって低レベルな特徴を洗練する軽量なセマンティックアライメントモジュールである。
構造的ギャップを埋め、計算効率を確保するために、空間領域をスケールに合わせるアライメント・アウェア・トークンサンプリングを導入し、注意の複雑さを桁違いに減らした。
得られたアテンション重みは、サンプリングされた空間チャネル変調マップを生成し、残留要素ワイド変調によって低レベル特徴に適用する。
この機構により、ネットワークは、密集予測タスクに必要なサブピクセルローカライゼーション精度を維持しながら、セマンティック関連画素を選択的に強化する。
FINEは一般に様々な検出器に適用でき、効率を損なうことなく検出精度を一貫して改善する。
関連論文リスト
- RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images [78.19052099452695]
地域分布を考慮した動的適応型オブジェクト検出ネットワーク(RDNet)を提案する。
RDNetはグローバルコンテキストモデリングのためにCNNのバックボーンをSwinTransformerに置き換える。
スケールの変動や正確なローカライゼーションに対して堅牢性を実現し、最先端の手法と比較して優れた検出性能を提供する。
論文 参考訳(メタデータ) (2026-03-12T17:34:29Z) - Small Object Detection in Complex Backgrounds with Multi-Scale Attention and Global Relation Modeling [8.24377869183113]
複雑な背景下での小さなオブジェクト検出は、深刻な特徴劣化、弱いセマンティック表現、不正確なローカライゼーションのために難しい課題である。
既存の検出フレームワークは主に汎用オブジェクト用に設計されている。
小型オブジェクト検出に適した多層機能拡張とグローバルリレーショナルモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-04T06:57:46Z) - IoUCert: Robustness Verification for Anchor-based Object Detectors [58.35703549470485]
IoUCertは、アンカーベースのオブジェクト検出アーキテクチャにおいて、これらのボトルネックを克服するために設計された、新しい形式的検証フレームワークである。
本手法は, SSD, YOLOv2, YOLOv3など, 現実的なアンカーベースモデルの各種入力摂動に対するロバスト性検証を可能にする。
論文 参考訳(メタデータ) (2026-03-03T14:36:46Z) - Entropy-Aware Structural Alignment for Zero-Shot Handwritten Chinese Character Recognition [7.632962062462334]
ゼロショット手書き漢字認識は、急進的な意味合成を活用することで、目に見えない文字を認識することを目的としている。
本稿では,情報理論モデリングにより視覚と意味のギャップを埋めるエントロピー対応構造アライメントネットワークを提案する。
ICDAR 2013データセットで55.04%の精度を達成し,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-03T16:08:40Z) - LoFLAT: Local Feature Matching using Focused Linear Attention Transformer [36.53651224633837]
We propose the LoFLAT, a novel Local Feature matching using Focused Linear Attention Transformer。
私たちのLoFLATは、Feature extract Module、Feature Transformer Module、Matching Moduleの3つの主要なモジュールで構成されています。
提案した LoFLAT は効率と精度の両方で LoFTR 法より優れている。
論文 参考訳(メタデータ) (2024-10-30T05:38:07Z) - Mesh Denoising Transformer [104.5404564075393]
Mesh Denoisingは、入力メッシュからノイズを取り除き、特徴構造を保存することを目的としている。
SurfaceFormerはTransformerベースのメッシュDenoisingフレームワークのパイオニアだ。
局所曲面記述子(Local Surface Descriptor)として知られる新しい表現は、局所幾何学的複雑さをキャプチャする。
Denoising Transformerモジュールは、マルチモーダル情報を受信し、効率的なグローバル機能アグリゲーションを実現する。
論文 参考訳(メタデータ) (2024-05-10T15:27:43Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Adaptive Linear Span Network for Object Skeleton Detection [56.78705071830965]
本研究では,適応線形スパンネットワーク(AdaLSN)を提案する。
AdaLSNは、精度とレイテンシのトレードオフを著しく高めることで、その汎用性を裏付ける。
また、エッジ検出や道路抽出といったイメージ・ツー・マスクのタスクに適用可能であることも示している。
論文 参考訳(メタデータ) (2020-11-08T12:51:14Z) - Align Deep Features for Oriented Object Detection [40.28244152216309]
本稿では、FAM(Feature Alignment Module)とODM(Oriented Detection Module)の2つのモジュールからなる単発アライメントネットワーク(S$2$A-Net)を提案する。
FAMは、アンカー・リファインメント・ネットワークで高品質なアンカーを生成し、アンカーボックスに応じた畳み込み特徴と、新しいアライメント・コンボリューション・コンボリューションとを適応的に調整することができる。
ODMは、まず、向き情報を符号化するためにアクティブな回転フィルタを採用し、次に、分類スコアとローカライゼーション精度の不整合を軽減するために、向きに敏感で方向不変な特徴を生成する。
論文 参考訳(メタデータ) (2020-08-21T09:55:13Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。