論文の概要: SpikeTAD: Spiking Neural Networks for End-to-End Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2606.12033v1
- Date: Wed, 10 Jun 2026 12:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.458654
- Title: SpikeTAD: Spiking Neural Networks for End-to-End Temporal Action Detection
- Title(参考訳): SpikeTAD: 終端から終端までの動作検出のためのスパイクニューラルネットワーク
- Authors: Min Yang, Mi Zhou, Limin Wang,
- Abstract要約: スパイキングニューラルネットワーク (SNN) は、ニューラルネットワーク (ANN) に対して、生物の楽観性と低消費電力の優位性を示している。
本稿では,SNNをベースとしたPykeTADと呼ばれる時間的行動検出アーキテクチャを提案する。
SpikeTADはTHUMOS14では平均67.2%、ActivityNet-1.3では37.42%のmAPを達成し、低消費電力のTADモデルの実現可能性を示している。
- 参考スコア(独自算出の注目度): 24.33424613315401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video understanding is a crucial part of computer vision, with numerous application scenarios. With the increasing popularity of mobile devices, an increasing number of efforts are trying to deploy video understanding models on them. However, existing video understanding models are difficult to deploy due to their large size and prohibitive power consumption. Spiking Neural Networks (SNNs) have shown bioplausibility and low power advantages over Artificial Neural Networks (ANNs), especially on neuromorphic chips which are regarded as essential components of future mobile devices. However, excessively long conversion time-steps and severe performance degradation problems limit their application. To solve the problems above, we explore the application of SNNs on temporal action detection (TAD), which is an important task in video understanding, and propose the first SNN-based end-to-end TAD architecture coined as SpikeTAD. While maintaining extremely low power consumption, SpikeTAD achieves an average mAP of 67.2% in THUMOS14 and 37.42% in ActivityNet-1.3, demonstrating the feasibility of a low-power TAD model. Our code is available at https://github.com/MCG-NJU/SpikeTAD.
- Abstract(参考訳): ビデオ理解はコンピュータビジョンの重要な部分であり、多くのアプリケーションシナリオがある。
モバイルデバイスの普及に伴い、ビデオ理解モデルをモバイルに展開しようとする取り組みが増えている。
しかし, 既存の映像理解モデルは, 大型化と消費電力の禁止のため, 展開が困難である。
スパイキングニューラルネットワーク(SNN)は、特に将来のモバイルデバイスの不可欠なコンポーネントと見なされるニューロモルフィックチップにおいて、ANN(Artificial Neural Networks)よりも生物の楽観性と低消費電力の優位性を示している。
しかし、過度に長い変換時間と厳しい性能劣化の問題は、その応用を制限している。
上記の課題を解決するために,ビデオ理解において重要な課題である時間的行動検出(TAD)へのSNNの適用について検討し,SpikeTADと命名された最初のSNNベースのエンドツーエンドTADアーキテクチャを提案する。
非常に低消費電力を維持しながら、SpikeTADはTHUMOS14では67.2%、ActivityNet-1.3では37.42%の平均mAPを達成し、低消費電力のTADモデルの実現可能性を示している。
私たちのコードはhttps://github.com/MCG-NJU/SpikeTAD.comで公開されています。
関連論文リスト
- Fire on Motion: Optimizing Video Pass-bands for Efficient Spiking Action Recognition [21.25634534419545]
スパイキングニューラルネットワーク(SNN)は、そのエネルギー効率、生物の楽観性、および固有の時間的処理により、視界において牽引力を高めている。
しかしながら、SNNは、人工知能ニューラルネットワーク(ANN)と比較して、動的ビデオタスクではまだパフォーマンスが劣っている。
論文 参考訳(メタデータ) (2026-01-30T07:47:23Z) - Spiking Meets Attention: Efficient Remote Sensing Image Super-Resolution with Attention Spiking Neural Networks [86.28783985254431]
従来の人工ニューラルネットワーク(ANN)の代替手段としてスパイキングニューラルネットワーク(SNN)が登場
本稿では,AID,DOTA,DIORなどのリモートセンシングベンチマークにおいて,最先端の性能を実現するSpikeSRを提案する。
論文 参考訳(メタデータ) (2025-03-06T09:06:06Z) - Activation-wise Propagation: A Universal Strategy to Break Timestep Constraints in Spiking Neural Networks for 3D Data Processing [29.279985043923386]
スパイキングニューロンに対する新しい状態更新機構であるAMP2(Activation-wise membrane potential Propagation)を導入する。
深いネットワークで接続をスキップすることで刺激を受け、AMP2はニューロンの膜電位をネットワークに組み込み、反復的な更新を不要にする。
提案手法は,3次元点雲やイベントストリームなど,様々な3次元モードの大幅な改善を実現する。
論文 参考訳(メタデータ) (2025-02-18T11:52:25Z) - Spiking Neural Network for Ultra-low-latency and High-accurate Object
Detection [18.037802439500858]
スパイキングニューラルネットワーク(SNN)は、そのエネルギー効率と脳にインスパイアされたイベント駆動特性に対する幅広い関心を集めている。
Spiking-YOLOのような最近の手法では、SNNをより困難なオブジェクト検出タスクに拡張している。
レイテンシが高く、検出精度が低いため、レイテンシに敏感なモバイルプラットフォームへのデプロイが困難になることが多い。
論文 参考訳(メタデータ) (2023-06-21T04:21:40Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - LaneSNNs: Spiking Neural Networks for Lane Detection on the Loihi
Neuromorphic Processor [12.47874622269824]
我々は、イベントベースのカメラ入力を用いて、道路にマークされた車線を検出するための新しいSNNベースのアプローチであるLaneSNNを提案する。
我々は、学習したSNNモデルをIntel Loihi Neuromorphic Research Chipに実装し、マッピングする。
損失関数に対して,重み付き二元交叉エントロピー(WCE)と平均二乗誤差(MSE)の線形合成に基づく新しい手法を開発した。
論文 参考訳(メタデータ) (2022-08-03T14:51:15Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Making DensePose fast and light [78.49552144907513]
このタスクを解くことができる既存のニューラルネットワークモデルは、非常にパラメータ化されている。
現在のモデルで端末のDense Pose推論を有効にするには、高価なサーバーサイドのインフラをサポートし、安定したインターネット接続が必要である。
本研究では,DensePose R-CNNモデルのアーキテクチャを再設計することで,最終的なネットワークがその精度の大部分を維持しつつ,より軽量で高速なネットワークを実現することを目的とする。
論文 参考訳(メタデータ) (2020-06-26T19:42:20Z) - Knowing What, Where and When to Look: Efficient Video Action Modeling
with Attention [84.83632045374155]
注意ビデオモデリングは、制約のないビデオにおける行動認識に不可欠である。
What-Where-When (W3)ビデオアテンションモジュールは、ビデオアテンションの3つの面を一緒にモデル化する。
実験により,我々の注意モデルが既存の行動認識モデルに大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-04-02T21:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。