論文の概要: FATE: Pillar Encoding and Frequency-Aware Training for Event-Based Object Detection
- arxiv url: http://arxiv.org/abs/2606.17334v1
- Date: Mon, 15 Jun 2026 22:32:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.160862
- Title: FATE: Pillar Encoding and Frequency-Aware Training for Event-Based Object Detection
- Title(参考訳): FATE:イベントベースオブジェクト検出のためのピラー符号化と周波数認識訓練
- Authors: Md Tawheedul Islam Bhuian, Kyoung-Don Kang,
- Abstract要約: イベントカメラは、高速かつ高ダイナミックレンジのシナリオに固有の利点を提供する。
現在のアプローチでは、蓄積ウィンドウを固定時間サブビンに分割する。
本稿では,新しい空間的枠組みを基盤とした統合フレームワークであるFATEを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Event cameras are bio-inspired sensors that asynchronously capture logarithmic intensity changes, offering inherent advantages in high-speed and high-dynamic-range scenarios. However, the sparse and asynchronous nature of event streams poses a fundamental challenge for modern deep learning architectures. To enable compatibility with standard models, most existing approaches partition the accumulation window into fixed temporal sub-bins. While effective for spatial processing, this internal discretization discards fine-grained temporal structure and constrains inference to the low temporal frequencies imposed by training supervision. To address this limitation, we propose FATE, a unified framework built upon a novel Pillar Encoding (PE). While operating over discrete macro-accumulation windows dictated by the target frequency, PE avoids internal temporal sub-binning. It organizes events into spatial pillars and approximates their intra-window evolution via projection onto a continuous-time orthogonal polynomial basis. This formulation yields an L2-optimal representation that retains rich temporal dynamics in a dense pseudo-image, mitigating information loss under sparse event conditions. To fully leverage this representation, we introduce Frequency-Aware Training (FAT), a soft mean-teacher curriculum that generates temporally dense pseudo-labels, effectively bridging the mismatch between low-frequency supervision and high-frequency inference. Extensive experiments demonstrate that FATE generalizes across architectural paradigms and consistently outperforms strong baselines. It enables robust object detection at high temporal resolutions up to 200 Hz, while incurring minimal overhead in parameter count and inference latency
- Abstract(参考訳): イベントカメラは、対数強度の変化を非同期にキャプチャするバイオインスパイアされたセンサーであり、高速で高ダイナミックなシナリオに固有の利点を提供する。
しかし、イベントストリームのスパースで非同期性は、現代のディープラーニングアーキテクチャに根本的な課題をもたらします。
標準モデルとの互換性を実現するため、既存のほとんどのアプローチは、蓄積ウィンドウを固定時間サブビンに分割する。
この内部離散化は、空間処理に有効であるが、訓練監督によって課される低時間周波数に対する微粒な時間構造と制約を破棄する。
この制限に対処するため、我々は新しい Pillar Encoding (PE) に基づいて構築された統合フレームワークであるFATEを提案する。
ターゲット周波数で規定された離散的なマクロ累積ウィンドウ上で動作している間、PEは内部の時間的サブビンニングを避ける。
イベントを空間的な柱に整理し、連続時間直交多項式基底への射影による風内進化を近似する。
この定式化は、濃密な擬似イメージにおいて豊富な時間的ダイナミクスを保持するL2最適表現をもたらし、スパース事象条件下での情報損失を緩和する。
この表現をフル活用するために、時間的に密集した擬似ラベルを生成するソフトな平均教師教育(FAT)を導入し、低周波監視と高周波推論のミスマッチを効果的にブリッジする。
大規模な実験は、FATEがアーキテクチャパラダイムをまたいで一般化し、強いベースラインを一貫して上回ることを示した。
パラメータカウントと推論遅延のオーバーヘッドを最小限に抑えながら、200Hzまでの高時間分解能で堅牢なオブジェクト検出を可能にする
関連論文リスト
- SRENet: Spectral Re-Entry Network for Point Cloud Action Recognition [49.508770157706486]
本研究では,行動認識の周波数視点から,大域的文脈と微粒な動きの時間的ダイナミクスを学習するためのSRENetを提案する。
SRENetは、ポイントクラウドベースのアクション理解における周波数モデリングの有効性を検証し、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-06-02T05:11:47Z) - Rethinking Event-Based Object Dtection through Representation-Level Temporal Aggregation and Model-Level Hypergraph Reasoning [65.08890312027314]
イベントカメラはマイクロ秒レベルの時間分解能、低レイテンシ、高ダイナミックレンジを提供する。
Event Dual Temporal-Relational Aggregation Detector (Ev-DTAD)は、表現レベルの時間エンコーディングとモデルレベルの時間-ハイパーグラフ推論を統合する。
Ev-DTADは、コンパクトな時間的表現と時間的ハイパーグラフの特徴的推論の相補性を検証し、競争精度と効率のトレードオフを実現する。
論文 参考訳(メタデータ) (2026-05-09T09:20:34Z) - Dynamic Pondering Sparsity-aware Mixture-of-Experts Transformer for Event Stream based Visual Object Tracking [44.11576998237289]
RGBベースのトラッカーは、低照度や高速モーションなどの困難な撮像条件に対して脆弱である。
イベントカメラは、ピクセルワイドの明るさ変化を捉え、高いダイナミックレンジと高時間分解能を提供することで、有望な代替手段を提供する。
複数の時間スケールにまたがるイベント密度変動を明示的にモデル化するイベント空間認識追跡フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-07T12:25:03Z) - Real-Time Glottis Detection Framework via Spatial-decoupled Feature Learning for Nasal Transnasal Intubation [13.846515413602722]
組込みデバイスとエッジデバイスのための軽量かつ効率的なグロッティ検出フレームワークであるMobile GlottisNetを提案する。
このモデルには構造的認識と空間的アライメント機構が含まれており、複雑な解剖学的および視覚的条件下でのロバストな声門局在を可能にする。
実験の結果,PIDデータセットと臨床データセットの両方で5MB程度の大きさのモデルでは,デバイス上で62FPS以上,エッジプラットフォーム上で33FPS以上の推論速度が得られた。
論文 参考訳(メタデータ) (2026-03-08T13:36:18Z) - Dualformer: Time-Frequency Dual Domain Learning for Long-term Time Series Forecasting [5.4806374384787695]
トランスフォーマーベースのモデルは、その効果を制限する固有の低パスフィルタリング効果に悩まされる。
本稿では、レイヤの観点から周波数モデリングを再考する、原則化されたデュアルドメインフレームワークであるDualformerを提案する。
8つの広く使用されているベンチマークで実施されたテストは、Dualformerの堅牢性と優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-01-22T05:51:56Z) - FAIM: Frequency-Aware Interactive Mamba for Time Series Classification [87.84511960413715]
時系列分類(TSC)は、環境モニタリング、診断、姿勢認識など、多くの実世界の応用において重要である。
本稿では,周波数対応対話型マンバモデルであるFAIMを提案する。
FAIMは既存の最先端(SOTA)手法を一貫して上回り、精度と効率のトレードオフが優れていることを示す。
論文 参考訳(メタデータ) (2025-11-26T08:36:33Z) - Event Signal Filtering via Probability Flux Estimation [58.31652473933809]
イベントは、非同期センシングを通じてシーンダイナミクスをキャプチャするための新しいパラダイムを提供するが、その固有のランダム性は、しばしば劣化した信号品質につながる。
したがって、イベント信号フィルタリングは、この内部ランダム性を低減し、多様な取得条件をまたいだ一貫した出力を確保することで、忠実性を高めるために不可欠である。
本稿ではイベント密度フローフィルタ(EDFilter)と呼ばれる生成オンラインフィルタリングフレームワークを紹介する。
実験では、イベントフィルタリング、スーパーレゾリューション、イベントベースの直接追跡といったタスクでEDFilterのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2025-04-10T07:03:08Z) - FDDet: Frequency-Decoupling for Boundary Refinement in Temporal Action Detection [4.015022008487465]
大規模な事前訓練されたビデオエンコーダは、背景の乱雑さと無関係なセマンティクスを導入し、コンテキストの混乱と境界に繋がる。
本稿では,事前学習したモデルから得られた雑音のセマンティクスをフィルタリングすることで,行動識別性を向上させる周波数対応デカップリングネットワークを提案する。
本手法は時間的行動検出ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-01T10:57:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。