論文の概要: Learn Temporal Consistency For Robust Satellite Video Detector
- arxiv url: http://arxiv.org/abs/2606.15112v1
- Date: Sat, 13 Jun 2026 05:00:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.852255
- Title: Learn Temporal Consistency For Robust Satellite Video Detector
- Title(参考訳): ロバスト衛星ビデオ検出器における時間一貫性の学習
- Authors: Weilong Guo, Shengyang Li, Yanfeng Gu,
- Abstract要約: 時間一貫性学習(TCL)に基づく衛星映像オブジェクト検出フレームワークを提案する。
TCLは、衛星ビデオ内のリッチな時間的文脈を利用して、指向性および微細な物体を適応的に検出する。
本フレームワークは,ベースラインよりも47.7%mAP,4.8%,最先端指向かつきめ細かな検出精度を実現している。
- 参考スコア(独自算出の注目度): 11.657415419403257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Satellite video object detection (SVOD) for oriented and fine-grained objects plays an important role in satellite applications. Most existing SVOD methods only focus on one or a few coarse-grained categories of moving objects and represent objects with horizontal bounding boxes. They have difficulty extracting complete, accurate, and consistent information about objects in whole satellite videos. In this paper, we propose a satellite video object detection framework based on Temporal Consistency Learning (TCL). TCL adeptly detects oriented and fine-grained objects by leveraging the rich temporal contexts within satellite videos. The framework integrates three key modules: temporal and fine-grained feature aggregation (TFA), structure encoding (SE), and temporal consistency constraint (TCC). TFA and TCC modules facilitate consistent representation learning across frames, while the SE module encodes both appearance and structural information for precise fine-grained recognition. Experimental results on the SAT-MTB benchmark dataset demonstrate TCL's superior performance, achieving a new state-of-the-art oriented and fine-grained detection accuracy of 47.7% mAP--a 4.8% improvement over the baseline. Furthermore, our TCL framework readily accommodates existing image-based detectors, leading to enhanced detection accuracies.
- Abstract(参考訳): 衛星画像オブジェクト検出(SVOD)は、衛星応用において重要な役割を担っている。
既存のSVODメソッドのほとんどは、移動対象の粗いカテゴリにのみフォーカスし、水平境界ボックスを持つオブジェクトを表す。
衛星ビデオ全体において、完全な正確で一貫した情報を抽出することは困難である。
本稿では,TCL(Temporal Consistency Learning)に基づく衛星ビデオオブジェクト検出フレームワークを提案する。
TCLは、衛星ビデオ内のリッチな時間的コンテキストを活用することにより、指向性および微細な物体を適応的に検出する。
このフレームワークは、時間的および微細な特徴集約(TFA)、構造的エンコーディング(SE)、時間的一貫性制約(TCC)の3つの重要なモジュールを統合している。
TFAとTCモジュールはフレーム間の一貫した表現学習を促進し、SEモジュールは外観情報と構造情報をエンコードして正確な粒度認識を行う。
SAT-MTBベンチマークデータセットによる実験結果は、TCLの優れた性能を示し、新しい最先端指向で詳細な検出精度は47.7%で、ベースラインよりも4.8%向上した。
さらに,我々のTCLフレームワークは,既存の画像ベース検出器に容易に対応でき,検出精度が向上する。
関連論文リスト
- Internalizing Temporal Consistency in Video Object-Centric Learning without Explicit Regularization [34.98521123729049]
SSC(Slot-Slot Contrastive)の損失は、最先端(SOTA)ビデオOCL(Object-Centric Learning)手法の基盤となっている。
時間的一貫性は、明示的な損失ではなく、暗黙的なモデル設計として強制されるのがよい。
論文 参考訳(メタデータ) (2026-05-29T16:28:21Z) - COVTrack++: Learning Open-Vocabulary Multi-Object Tracking from Continuous Videos via a Synergistic Paradigm [59.26203051651017]
C-TAOはOpen-Vocabulary Multi-Object Tracking (OVMOT)のための最初の連続アノテーション付きトレーニングセットである
フレームワークボトルネックに対するCOVTrack++は,3つのモジュールによる検出とアソシエーションの双方向相互機構を実現するための相乗的フレームワークである。
TAOの実験では、新しいTAAは検証とテストセットで35.4%、30.5%に達し、新しいAssocAは4.8%、新しいLocAは5.8%向上した。
論文 参考訳(メタデータ) (2026-03-25T07:20:27Z) - SATGround: A Spatially-Aware Approach for Visual Grounding in Remote Sensing [57.609801041296095]
視覚言語モデル(VLM)はリモートセンシングの強力なツールとして登場しつつある。
衛星画像におけるVLMに基づく視覚的グラウンド化を,新しい構造的局所化機構を提案することで促進する。
論文 参考訳(メタデータ) (2025-12-09T18:15:43Z) - Infrared Small Target Detection in Satellite Videos: A New Dataset and A Novel Recurrent Feature Refinement Framework [28.777999462705516]
IRSatVideo-LEOは、合成された衛星の動き、ターゲットの外観、軌道、強度を備えたセミシミュレートされたデータセットである。
RFRは、長期の時間的依存性を悪用するための、既存の強力なCNNベースの手法を備えることが提案されている。
論文 参考訳(メタデータ) (2024-09-19T03:58:32Z) - Addressing single object tracking in satellite imagery through prompt-engineered solutions [2.098136587906041]
衛星映像における小型物体の学習自由点追跡手法を提案する。
我々の戦略は、リモートセンシングアプリケーションにおける衛星画像に適したロバストな追跡ソリューションの大幅な進歩を示している。
論文 参考訳(メタデータ) (2024-07-07T23:50:29Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Detecting and Tracking Small and Dense Moving Objects in Satellite
Videos: A Benchmark [30.078513715446196]
オブジェクトの検出と追跡を行うタスクに対して,豊富なアノテーションを付加した大規模衛星ビデオデータセットを構築した。
このデータセットは、ジリン1の衛星コンステレーションによって収集される。
衛星ビデオにおける物体の検出と追跡を行うための最初の公開ベンチマークを確立する。
論文 参考訳(メタデータ) (2021-11-25T08:01:41Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。