論文の概要: SED:Lightweight Saliency prediction for Event-based data via Distillation
- arxiv url: http://arxiv.org/abs/2606.14631v1
- Date: Fri, 12 Jun 2026 16:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:43.000575
- Title: SED:Lightweight Saliency prediction for Event-based data via Distillation
- Title(参考訳): SED:蒸留によるイベントベースデータの軽量残差予測
- Authors: Romaric Mazna, Jean Martinet, Michele Magno,
- Abstract要約: イベントベースのサリエンシ予測は、上流のステージとして機能し、エッジでの下流のイベントベースの知覚の効率を自然に改善する。
我々は,DSTconv(Depthwise Spatio-Temporal Block)上に構築された知識蒸留による軽量ネットワークを提案する。
教師に対して、モデルのサイズを180MBから0.32MB(562x)に減らし、パラメータ数を45Mから81k(554x)に減らした。
トレーニング分布を超えて、スクラッチからトレーニングされたモデルが失敗する合成データから実際のイベントデータへの転送を強く一般化する。
- 参考スコア(独自算出の注目度): 9.412244205469465
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Event-based saliency prediction has gained attention recently, as combining event cameras with saliency estimation can act as an upstream stage that naturally improves the efficiency of downstream eventbased perception at the edge. However, current approaches are either neuromorphic, underperforming on event-based saliency benchmarks, or too heavy for resource-constrained edge applications due to their reliance on transformers or 3D convolutions. Drawing inspiration from efficient convolutional modules, SED and aiming to exploit the temporal information in event data, we propose a lightweight network, trained through knowledge distillation, built on a Depthwise Spatio-Temporal Block (DSTconv) -- a factorization of the 3D depthwise separable convolution. Relative to its teacher, our model reduces the model size from 180 MB to 0.32 MB (562x) and the parameter count from 45M to 81k (554x), while matching or outperforming it on the N-DHF1K and N-UCF Sports datasets. Moreover, it generalizes strongly beyond its training distribution, transferring from synthetic to real event data where a model trained from scratch fails.
- Abstract(参考訳): イベントベースのサリエンシ予測は近年注目されており、イベントカメラとサリエンシ推定を組み合わせることで、下流でのイベントベースの知覚の効率を自然に向上する上流ステージとして機能することができる。
しかし、現在のアプローチはニューロモルフィックであり、イベントベースのサリエンシベンチマークでは性能が低いか、トランスフォーマーや3D畳み込みに依存しているためリソース制約のあるエッジアプリケーションでは重すぎるかのいずれかである。
効率的な畳み込みモジュール(SED)からインスピレーションを得て,イベントデータ中の時間的情報を活用することを目的とした,DSTconv(Depthwise Spatio-Temporal Block)上に構築された知識蒸留による軽量ネットワークを提案する。
本モデルでは,モデルのサイズを180MBから0.32MB(562x)に削減し,パラメータ数を45Mから81k(554x)に削減し,N-DHF1KとN-UCFスポーツデータセットのマッチングや性能を向上する。
さらに、スクラッチからトレーニングされたモデルが失敗する合成データから実際のイベントデータへ転送することで、トレーニング分布をはるかに超えるように一般化する。
関連論文リスト
- Enhancing Eye Feature Estimation from Event Data Streams through Adaptive Inference State Space Modeling [68.1289208938377]
イベントベースのデータストリームから目の特徴抽出を効率的かつ低エネルギーで行うことができる。
本稿では,特徴抽出のための新しいアーキテクチャである強調型推論状態空間モデル(AISSM)を紹介する。
また、トレーニング効率を向上させる新しい学習手法を開発・評価する。
論文 参考訳(メタデータ) (2026-03-14T18:47:08Z) - Visual Autoregressive Modelling for Monocular Depth Estimation [69.01449528371916]
本稿では,視覚的自己回帰(VAR)に基づく単眼深度推定手法を提案する。
提案手法は,大規模テキスト・画像VARモデルに適応し,スケールワイド・コンディショナル・アップサンプリング機構を導入する。
本研究では,屋内ベンチマークにおける制約付きトレーニング条件下での最先端性能と,屋外データセットに適用した場合の強い性能について報告する。
論文 参考訳(メタデータ) (2025-12-27T17:08:03Z) - TGLF-SINN: Deep Learning Surrogate Model for Accelerating Turbulent Transport Modeling in Fusion [18.028061388104963]
我々は,3つの重要なイノベーションを持つtextbfTGLF-SINN (Spectra-Informed Neural Network) を提案する。
我々の手法は、トレーニングデータを大幅に減らし、優れたパフォーマンスを実現する。
下流フラックスマッチングアプリケーションでは、NNサロゲートがTGLFの45倍のスピードアップを提供しながら、同等の精度を維持しています。
論文 参考訳(メタデータ) (2025-09-07T09:36:51Z) - Spatiotemporal Attention Learning Framework for Event-Driven Object Recognition [1.0445957451908694]
イベントベースの視覚センサは、位置、極性、情報を含むスパースイベントストリームとして、局所ピクセルレベルの強度変化をキャプチャする。
本稿では、CBAM(Contemporalal Block Attention Module)により強化されたVARGGネットワークを利用した、イベントベースのオブジェクト認識のための新しい学習フレームワークを提案する。
提案手法は,従来のVGGモデルと比較してパラメータ数を2.3%削減しつつ,最先端のResNet手法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-04-01T02:37:54Z) - Lightweight Deep Learning Framework for Accurate Particle Flow Energy Reconstruction [8.598010350935596]
本稿では,ディープラーニング再構築の枠組みを体系的に評価する。
重み付き平均2乗と誤差構造類似度指数を組み合わせたハイブリッド損失関数を設計する。
我々は,モーダル時間的相関とエネルギー変位非線形性を捉えるモデルの能力を強化する。
論文 参考訳(メタデータ) (2024-10-08T11:49:18Z) - Video Prediction Transformers without Recurrence or Convolution [65.93130697098658]
我々は、Gated Transformerを完全にベースとしたフレームワークであるPredFormerを提案する。
本稿では,映像予測の文脈における3次元注意の包括的分析を行う。
精度と効率の両面で大きな改善は、PredFormerの可能性を強調している。
論文 参考訳(メタデータ) (2024-10-07T03:52:06Z) - The Surprising Effectiveness of Diffusion Models for Optical Flow and
Monocular Depth Estimation [42.48819460873482]
拡散確率モデルは、その印象的な忠実さと多様性で画像生成を変換した。
また,タスク固有のアーキテクチャや損失関数を使わずに,光学的フローと単眼深度の推定に優れることを示す。
論文 参考訳(メタデータ) (2023-06-02T21:26:20Z) - Adaptive Sparsity Level during Training for Efficient Time Series Forecasting with Transformers [20.23085795744602]
textbfAdaptive textbfSparsity textbfPALS(textbfPALS)を提案する。
PALSはスパーストレーニングとトレーニングの方法からインスピレーションを得ている。
スパースニューラルネットワークのトレーニングにおいて、新しい"拡張"メカニズムを導入し、モデルを動的に縮小、拡張、あるいは安定して適切なスパースレベルを見つけることを可能にする。
論文 参考訳(メタデータ) (2023-05-28T06:57:27Z) - Highly Efficient 3D Human Pose Tracking from Events with Spiking Spatiotemporal Transformer [23.15179173446486]
イベントのみに基づく3次元ポーズトラッキングのための,最初のスパーススパイキングニューラルネットワーク(SNN)フレームワークを紹介する。
提案手法では,スパースデータを高密度なフォーマットに変換したり,追加のイメージを組み込む必要がなくなり,入力イベントの本質的にの空間性を完全に活用することが可能になる。
実証実験では、既存の最先端(SOTA)ANN方式よりも、19.1%のFLOPと3.6%のコストエネルギーしか必要とせず、我々のアプローチの優位性を実証した。
論文 参考訳(メタデータ) (2023-03-16T22:56:12Z) - Truncated tensor Schatten p-norm based approach for spatiotemporal
traffic data imputation with complicated missing patterns [77.34726150561087]
本研究は, モード駆動繊維による3症例の欠失を含む, 4症例の欠失パターンについて紹介する。
本モデルでは, 目的関数の非性にもかかわらず, 乗算器の交互データ演算法を統合することにより, 最適解を導出する。
論文 参考訳(メタデータ) (2022-05-19T08:37:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。