論文の概要: From Spatial to Spectral: An Efficient, Frequency-Guided Feature Representation Learner for Small Object Detection
- arxiv url: http://arxiv.org/abs/2606.23825v1
- Date: Mon, 22 Jun 2026 18:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.620555
- Title: From Spatial to Spectral: An Efficient, Frequency-Guided Feature Representation Learner for Small Object Detection
- Title(参考訳): 空間からスペクトルへ:小物体検出のための効率的な周波数誘導型特徴表現学習装置
- Authors: Yuhan Rui, Shihan Qiao, Yibin Lou, Mingxi Yu, Yutong Wan, Yanqiao Chen, Dongsheng Hou, Zhen Cao, Athena Zhuoming Zhong, Qi Hao,
- Abstract要約: 小さな物体検出は、小さなターゲットの固有の特徴不足によってボトルネックとなる。
本稿では,空間的特徴処理からスペクトル的特徴処理へのパラダイムテキストbfシフトを提案する。
提案する textbfDERNet シリーズは同じスケールで YOLOv11 モデルより優れている。
- 参考スコア(独自算出の注目度): 5.01964718362187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient small object detection is bottlenecked by the inherent feature scarcity of tiny targets, which is further aggravated by operations of spatial-domain detectors that indiscriminately discard critical high-frequency details. Recovering these fragile cues within the spatial domain is notoriously difficult, as it often requires computationally expensive architectural upscaling that inadvertently amplifies background noise. To bridge this gap, we propose a paradigm \textbf{shift from spatial to spectral} feature processing, introducing a holistic solution with the following novelty: (1) A versatile \textbf{Frequency-Guided Feature Representation framework} that generalizes across diverse detector architectures (both CNN and Transformer-based), offering a robust alternative to spatial-only feature extraction; (2) The unified \textbf{Decompose--Enhance--Reconstruct (DER)} operator, instantiated via three \textbf{lightweight, plug-and-play} modules -- Wavelet-Difference Gate (WDG), Log-Gabor Enhancer (LGE), and Frequency-Driven Head (FDHead) -- to systematically inject frequency-aware modulation into the backbone, neck, and head. This mechanism decouples feature modeling from resolution reduction, capturing discriminative high-frequency components to enable accurate localization with significantly reduced parameter redundancy; (3) Extensive validation on multi-domain benchmarks (VisDrone2019, UAVDT, TinyPerson, DOTAv1) demonstrating consistent gains. Notably, our proposed \textbf{DERNet} series outperforms YOLOv11 models under the same scale while requiring \textbf{only 1/6 of the parameters}, backed by rigorous spectral diagnostics and error decomposition analysis.
- Abstract(参考訳): 効率的な小物体検出は、小さなターゲットの固有の特徴不足によってボトルネックとなり、重要な高周波の詳細を無差別に破棄する空間ドメイン検出器の操作によってさらに増大する。
空間領域内でこれらの脆弱なキューを復元することは、しばしば計算に高価なアーキテクチャのアップスケーリングを必要とするため、しばしば不注意に背景ノイズを増幅する。
このギャップを埋めるために、(1) 多様な検出器アーキテクチャ(CNNとTransformerベースの両方)にまたがる汎用的 \textbf{Frequency-Guided Feature Representation framework} を一般化し、空間のみの特徴抽出の堅牢な代替を提供する、(2) 統一された \textbf{Decompose--Enhance--Reconstruct (DER)} 演算子を3つの \textbf{lightweight, plug-and-play} モジュールでインスタンス化する -- Wavelet-Difference Gate (WDG), Log-Gabor Enhancer (LGE), Frequency-Driven Head (Fadad) を体系的にインジェクションし、首,首,首,首,首,首,首,首,首,首,首,首,首,首,首,首,首を誘導する。
このメカニズムは、分解能の低下から特徴モデリングを分離し、識別可能な高周波成分を捕捉し、パラメータ冗長性を著しく低減した正確なローカライゼーションを可能にする。
特に,提案した \textbf{DERNet} シリーズは,厳密なスペクトル診断と誤り分解解析を背景として, YOLOv11 モデルに対して, パラメータの 1/6 の \textbf{only 1/6 を要求しながら, 同じスケールで性能を向上する。
関連論文リスト
- Hierarchical Consistency Learning for Test-time Adaptation in Camouflage Perception [50.278200968044665]
カモフラージュされた物体検出(COD)は、物理的属性を通して背景から最小限の知覚差を示すターゲットをローカライズすることを目的としている。
既存のメソッドは、静的なTrain-then-freezeパラダイムによって制約されており、ドメインの剛性と依存性のアノテーションに悩まされている。
動的表現再構成のためのテスト時間適応を統合した階層的一貫性学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-25T09:57:46Z) - DFIR-DETR: Frequency Domain Enhancement and Dynamic Feature Aggregation for Cross-Scene Small Object Detection [16.16000521213211]
UAVリモートセンシング画像の小型物体検出は困難である。
現在の変圧器ベースの検出器は、3つの重要な問題に悩まされている。
本稿ではDFIR-DETRを導入し,周波数領域処理と組み合わせた動的特徴集約手法を提案する。
論文 参考訳(メタデータ) (2025-12-08T01:25:10Z) - High-Frequency Semantics and Geometric Priors for End-to-End Detection Transformers in Challenging UAV Imagery [6.902247657565531]
本稿では,空中シーンに適したリアルタイム検出変換器であるHEDS-DETRを紹介する。
まず,高周波数拡張セマンティックスネットワーク(HFESNet)のバックボーンを提案する。
第2に、高分解能特徴を効率的に融合させることにより、情報損失に対処する。
第三に、2つの相乗的成分を用いてデコーダの安定性と位置決め精度を向上させる。
論文 参考訳(メタデータ) (2025-07-01T14:56:56Z) - DiffFormer: a Differential Spatial-Spectral Transformer for Hyperspectral Image Classification [3.271106943956333]
超スペクトル画像分類(HSIC)は、高次元データをスペクトル情報と空間情報で分析する可能性から注目されている。
本稿では、スペクトル冗長性や空間不連続性といったHSICの固有の課題に対処するために、差分空間スペクトル変換器(DiffFormer)を提案する。
ベンチマークハイパースペクトルデータセットの実験は、分類精度、計算効率、一般化可能性の観点から、DiffFormerの優位性を示す。
論文 参考訳(メタデータ) (2024-12-23T07:21:41Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Spectral Enhanced Rectangle Transformer for Hyperspectral Image
Denoising [64.11157141177208]
ハイパースペクトル画像の空間的およびスペクトル的相関をモデル化するスペクトル拡張矩形変換器を提案する。
前者に対しては、長方形自己アテンションを水平および垂直に利用し、空間領域における非局所的類似性を捉える。
後者のために,空間スペクトル立方体の大域的低ランク特性を抽出し,雑音を抑制するスペクトル拡張モジュールを設計する。
論文 参考訳(メタデータ) (2023-04-03T09:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。