論文の概要: M^2C-EvDet: Multi-Domain Multi-Order Cross-Modal Knowledge Distillation for Event-based Object Detection
- arxiv url: http://arxiv.org/abs/2606.24248v1
- Date: Tue, 23 Jun 2026 07:35:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.827766
- Title: M^2C-EvDet: Multi-Domain Multi-Order Cross-Modal Knowledge Distillation for Event-based Object Detection
- Title(参考訳): M^2C-EvDet:イベントベースオブジェクト検出のためのマルチドメイン多段階クロスモーダル知識蒸留
- Authors: Wei Bao, Siqi Li, Shouan Pan, Yi Xie, Yue Gao,
- Abstract要約: イベントベースのオブジェクト検出(EvDet)は、高時間分解能と広いダイナミック性を必要とするシナリオにおいて、優れたパフォーマンスを示す。
本稿では,EvDetのマルチドメイン・マルチオーダークロスモーダル知識蒸留フレームワークであるM2C-EvDetを提案する。
周波数学習とハイパーグラフ計算に基づいて構築されたM2C-EvDetは、Adaptive-Decoupled Feature Distillation (AF2D2)とMulti-Order Frequency Distillation (MORD)の2つの特殊なモジュールを統合する。
- 参考スコア(独自算出の注目度): 16.991308732308045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event-based object Detection (EvDet), as a biologically inspired visual perception paradigm, demonstrates superior performance in scenarios demanding high temporal resolution and a wide dynamic range. Nevertheless, the inherent sparse representations and inadequate visual semantics of event data result in a considerable performance disparity between EvDet and frame-based object detection. Previous works attempt to alleviate this cross-modal discrepancy through knowledge distillation, yet they only focus on spatial visual semantics or pair-wise relational information, thus limiting performance in more complex scenarios. To address this challenge, this paper proposes M^2C-EvDet, a Multi-domain and Multi-order Cross-modal knowledge distillation framework for EvDet. Built upon frequency learning and hypergraph computation, M^2C-EvDet integrates two specialized modules: Adaptive Frequency-Decoupled Feature Distillation (AF^2D^2) and Multi-Order Relational Distillation (MORD).
- Abstract(参考訳): イベントベースオブジェクト検出(EvDet)は生物学的にインスパイアされた視覚知覚パラダイムであり、高時間分解能と広いダイナミックレンジを必要とするシナリオにおいて優れた性能を示す。
それでも、イベントデータの本質的にスパース表現や視覚的セマンティクスの不十分さは、EvDetとフレームベースのオブジェクト検出の間にかなりのパフォーマンスの相違をもたらす。
従来の研究は、知識蒸留を通じて、この横断的不一致を緩和しようとするが、それらは空間的な視覚的意味論や対関係情報にのみ焦点をあて、より複雑なシナリオにおけるパフォーマンスを制限している。
この課題に対処するために,EvDetのためのマルチドメイン・マルチオーダークロスモーダル知識蒸留フレームワークであるM^2C-EvDetを提案する。
周波数学習とハイパーグラフ計算に基づいて構築されたM^2C-EvDetは、適応周波数分解型特徴蒸留(AF^2D^2)と多次関係蒸留(MORD)という2つの特殊なモジュールを統合する。
関連論文リスト
- DAMS:Dual-Branch Adaptive Multiscale Spatiotemporal Framework for Video Anomaly Detection [7.117824587276951]
この研究は、マルチレベル特徴とデカップリング融合に基づくDual-Branch Adaptive Multiscale Stemporal Framework (DAMS)と呼ばれるデュアルパスアーキテクチャを提供する。
主処理経路は、適応型マルチスケール時間ピラミッドネットワーク(AMTPN)と畳み込みブロック注意機構(CBAM)を統合している。
論文 参考訳(メタデータ) (2025-07-28T08:42:00Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - Beyond the Benchmark: Detecting Diverse Anomalies in Videos [0.6993026261767287]
ビデオ異常検出(VAD)は、現代の監視システムにおいて重要な役割を担い、現実の状況における様々な異常を識別することを目的としている。
現在のベンチマークデータセットは、新しいオブジェクト検出のような単純な単一フレームの異常を主に強調している。
我々は,従来のベンチマーク境界を超える複雑な異常を包含するVAD調査の拡大を提唱する。
論文 参考訳(メタデータ) (2023-10-03T09:22:06Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。