論文の概要: A Neuromorphic Trigger for Efficient Audio Event Detection
- arxiv url: http://arxiv.org/abs/2606.17775v1
- Date: Tue, 16 Jun 2026 10:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.392118
- Title: A Neuromorphic Trigger for Efficient Audio Event Detection
- Title(参考訳): 効率的な音声イベント検出のためのニューロモルフィックトリガー
- Authors: Benjamin Hatton, Oliver Rhodes, Luca Peres,
- Abstract要約: 本稿では、下流モデルへの入力を選択的にゲートするスパイキングニューラルネットワーク(SNN)に基づく、音声イベント検出のためのニューロモルフィックトリガを提案する。
提案したトリガーは低コストのフロントエンドとして機能し、健全な音声セグメントを特定し、これらのみを分類などのタスクのより計算集約的なモデルに転送する。
- 参考スコア(独自算出の注目度): 0.17646262965516948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient processing of continuous audio streams remains a key challenge for real-time and resource-constrained systems. This paper introduces a neuromorphic trigger for audio event detection, based on a spiking neural network (SNN) that selectively gates input to downstream models. The proposed trigger acts as a low-cost front-end, identifying salient audio segments and forwarding only these to a more computationally intensive model for tasks such as classification. The trigger is implemented as a lightweight fully connected SNN and evaluated on two representative tasks: Anomalous Sound Detection (ASD) and Sound Event Detection (SED). For ASD, the trigger achieves a one-second segment-based F1 score of 0.97 on a class-agnostic form of the URBAN-SED dataset, demonstrating high reliability in identifying relevant audio regions. For SED, the trigger is combined with the Dang classifier on the DCASE 2017 Challenge Task 2 dataset, showing a potential $42.6\times$ reduction in FLOPs while reducing the lower bound of the event-based error rate from 0.41 to 0.25. These results highlight the potential of neuromorphic triggers as real-time, energy-efficient front-end filters, enabling substantial reductions in computational cost.
- Abstract(参考訳): 連続的なオーディオストリームの効率的な処理は、リアルタイムおよびリソース制約のあるシステムにとって重要な課題である。
本稿では、下流モデルへの入力を選択的にゲートするスパイキングニューラルネットワーク(SNN)に基づく、音声イベント検出のためのニューロモルフィックトリガを提案する。
提案したトリガーは低コストのフロントエンドとして機能し、健全な音声セグメントを特定し、これらのみを分類などのタスクのより計算集約的なモデルに転送する。
トリガーは軽量で完全に接続されたSNNとして実装され、Anomalous Sound Detection (ASD) と Sound Event Detection (SED) の2つの代表的なタスクで評価される。
ASDの場合、トリガーはURBAN-SEDデータセットのクラスに依存しない形式で1秒のセグメントベースのF1スコア0.97を達成し、関連するオーディオ領域を特定する上で高い信頼性を示す。
SEDでは、このトリガーとDCASE 2017 Challenge Task 2データセットのDang分類器が組み合わされ、FLOPの42.6\times$の削減と、イベントベースのエラーレートの低いバウンダリを0.41から0.25に削減する可能性がある。
これらの結果は、ニューロモルフィックトリガーの可能性をリアルタイムでエネルギー効率のよいフロントエンドフィルタとして示し、計算コストの大幅な削減を可能にした。
関連論文リスト
- nASR: An End-to-End Trainable Neural Layer for Channel-Level EEG Artifact Subspace Reconstruction in Real-Time BCI [0.0]
アーティファクトサブスペース再構成(Artifact Subspace Reconstruction, ASR)は、EEGベースのBCIアプリケーションにおいて最も広く使われているアーティファクトフィルタリング手法の1つである。
我々は,アーティファクトの拒絶と下流の復号化を共同で最適化する,新しいエンドツーエンドのトレーニング可能なKeras層であるnASRを提案する。
論文 参考訳(メタデータ) (2026-05-14T15:15:57Z) - Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis [14.922065513695294]
Resp-Agent(Resp-Agent)は、アクティブアドリキュラムエージェント(Thinker-A$2$CA)によって編成された自律型マルチモーダルシステムである。
表現ギャップに対処するため,EHRデータをストラテジックグローバルアテンションを介して音声トークンで織り込むModality-Weaving Diagnoserを導入する。
データギャップに対処するために,テキストのみのLarge Language Model (LLM) をモダリティインジェクションにより適応させるフローマッチングジェネレータを設計する。
論文 参考訳(メタデータ) (2026-02-16T14:48:24Z) - Lightweight Hopfield Neural Networks for Bioacoustic Detection and Call Monitoring of Captive Primates [0.0]
本稿では,ホップフィールドニューラルネットワークアーキテクチャを用いた,透過的で軽量かつ高速に学習可能な連想型メモリAIモデルを提案する。
コウモリのエコーロケーションを検知するために開発されたモデルに適応したこのモデルは、捕獲された絶滅危惧種である白黒ラッフェのVarecia variegataの発声をモニターする。
論文 参考訳(メタデータ) (2025-11-04T17:46:03Z) - Noisy Test-Time Adaptation in Vision-Language Models [73.14136220844156]
テスト時間適応(TTA)は、テスト中のターゲットデータのみに依存することにより、ソースデータとターゲットデータの分散シフトに対処することを目的としている。
本稿では、ゼロショット方式で、テスト時にノイズのあるサンプルをターゲットとするデータにモデルを適応させることに焦点を当てたゼロショットノイズTTA(ZS-NTTA)を提案する。
本稿では, 冷凍機の出力を擬似ラベルとして利用し, ノイズ検出器の訓練を行う適応ノイズ検出器(AdaND)を提案する。
論文 参考訳(メタデータ) (2025-02-20T14:37:53Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - Sound Event Detection Transformer: An Event-based End-to-End Model for
Sound Event Detection [12.915110466077866]
音のイベント検出(SED)は、監視、ビデオインデックス作成等に広く応用され、注目を集めている。
SEDの既存のモデルは、主にフレームレベルの予測を生成し、それをシーケンスマルチラベル分類問題に変換する。
本稿ではまず,1次元検出変換器 (1D-DETR) について述べる。
SEDの特性から、1D-DETRに音声クエリと1対1のマッチング戦略を追加し、SEDT(Sound Event Detection Transformer)のモデルを作成する。
論文 参考訳(メタデータ) (2021-10-05T12:56:23Z) - Deep learning for gravitational-wave data analysis: A resampling
white-box approach [62.997667081978825]
我々は、LIGO検出器からの単一干渉計データを用いて、畳み込みニューラルネットワーク(CNN)を用いて、コンパクトなバイナリコレッセンスにおける重力波(GW)信号を検出する。
CNNはノイズを検出するのに非常に正確だが、GW信号のリコールに十分な感度がないため、CNNはGWトリガの生成よりもノイズ低減に適している。
論文 参考訳(メタデータ) (2020-09-09T03:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。