論文の概要: An Analysis of Untrained Deep Reservoir Networks for Audio Surveillance
- arxiv url: http://arxiv.org/abs/2606.22218v1
- Date: Sat, 20 Jun 2026 20:39:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 21:58:22.294986
- Title: An Analysis of Untrained Deep Reservoir Networks for Audio Surveillance
- Title(参考訳): オーディオサーベイランスのための未訓練深部貯留層ネットワークの解析
- Authors: Corrado Baccheschi, Patrizio Dazzi,
- Abstract要約: オーディオ監視のためのReservoir Computing(RC)パラダイムからトレーニングされていないリカレントモデルについて検討する。
様々なSNR(Signal-to-Noise Ratio)レベルにまたがるマルチクラス設定において,これらのモデルをMIVIAオーディオイベントデータセット上で評価する。
その結果,深部および浅部における貯水池モデルと競合する認識率が得られることがわかった。
- 参考スコア(独自算出の注目度): 0.8594140167290097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate untrained recurrent models from the Reservoir Computing (RC) paradigm for audio surveillance, focusing on bidirectional Echo State Networks with different depths, from shallow to deep configurations, for emergency sound event detection. We evaluate these models on the MIVIA Audio Events dataset in a multiclass setting across different Signal-to-Noise Ratio (SNR) levels, with the goal of assessing the trade-off between depth, recognition performance, and computational efficiency. We compare the proposed architectures against fully trained recurrent and convolutional-recurrent baselines, namely Bidirectional Long Short-Term Memory networks (BiLSTMs) and Convolutional Recurrent Neural Networks (CRNNs). Results show that deep and shallow reservoir-based models achieve competitive recognition rates, with deeper variants being more robust in highly noisy conditions and shallower ones offering the most favorable efficiency profile, particularly on edge devices such as the NVIDIA Orin. In addition, the proposed approach remains robust across different input representations, including log-Mel spectrograms and MFCCs with varying resolutions. These findings highlight untrained reservoir architectures as a promising solution for resource-constrained audio surveillance scenarios.
- Abstract(参考訳): 本稿では,オーディオ監視のためのReservoir Computing(RC)パラダイムのトレーニングされていないリカレントモデルについて検討する。
我々は,これらのモデルを,深度,認識性能,計算効率のトレードオフを評価することを目的として,SNR(Signal-to-Noise Ratio)の異なるレベルにまたがるマルチクラス設定でMIVIAオーディオイベントデータセット上で評価する。
提案手法は,BiLSTM(Bidirectional Long Short-Term Memory Network)とCRNN(Convolutional Recurrent Neural Networks)という,完全にトレーニングされたリカレントベースラインと畳み込みリカレントベースラインを比較した。
その結果,特にNVIDIA Orinなどのエッジデバイスにおいて,深部および浅部をベースとしたモデルが高い雑音条件下ではより堅牢で,より浅いモデルの方が,最も良好な効率プロファイルを提供することがわかった。
さらに、提案手法は、ログメル分光法や様々な解像度のMFCCなど、様々な入力表現に対して頑健なままである。
これらの知見は、リソース制約のあるオーディオ監視シナリオに対する有望な解決策として、非拘束型貯水池アーキテクチャを浮き彫りにした。
関連論文リスト
- Direct Raw Audio Signal Processing via Reservoir Computing: An Investigation into 'Feature-Free' Architectures [0.0]
本稿では,Reservoir Computing (RC) を音声処理のための自律型「機能フリー」フレームワークとして評価する。
本研究では, 貯留層に固有の高次元時間ダイナミクスが, 生音響信号の直接分類のための堅牢なエンドツーエンドプロセッサとして機能するかどうかを検討する。
論文 参考訳(メタデータ) (2026-06-19T11:30:22Z) - Explainable Transformer-CNN Fusion for Noise-Robust Speech Emotion Recognition [2.0391237204597363]
音声感情認識システムは、予測不能な音響干渉にさらされると、しばしば性能が低下する。
本稿では,Wav2Vec 2.0のコンテキストモデリングと1次元畳み込みニューラルネットワークのスペクトル安定性を融合したHybrid Transformer-CNNフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-20T10:05:58Z) - Adaptive Control Attention Network for Underwater Acoustic Localization and Domain Adaptation [8.017203108408973]
海洋における音源の局所化は、環境の複雑でダイナミックな性質のために難しい課題である。
本研究では,移動音源と受信機の距離を正確に予測するマルチブランチネットワークアーキテクチャを提案する。
提案手法は,SOTA(State-of-the-art)アプローチに類似した設定で優れる。
論文 参考訳(メタデータ) (2025-06-20T18:13:30Z) - Novel Deep Neural OFDM Receiver Architectures for LLR Estimation [1.2499537119440243]
チャネル推定と等化処理を行う2つのOFDM受信機を提案する。
シミュレーションの結果,DATとRDNLAは従来の通信システムと既存のニューラルレシーバモデルの両方より優れていた。
論文 参考訳(メタデータ) (2025-03-26T12:39:56Z) - On Neural Architectures for Deep Learning-based Source Separation of
Co-Channel OFDM Signals [104.11663769306566]
周波数分割多重化(OFDM)信号を含む単一チャネル音源分離問題について検討する。
我々はOFDM構造からの洞察に基づいて、ネットワークパラメータ化に対する重要なドメインインフォームド修正を提案する。
論文 参考訳(メタデータ) (2023-03-11T16:29:13Z) - Compute and memory efficient universal sound source separation [23.152611264259225]
汎用オーディオソース分離のための効率的なニューラルネットワークアーキテクチャのファミリーを提供します。
この畳み込みネットワークのバックボーン構造は、SuDoRM-RF(Sccessive DOwnsampling and Resampling of Multi-Resolution Features)である。
実験の結果,SuDoRM-RFモデルは相容れない性能を示し,またいくつかの最先端ベンチマークを上回る性能を示した。
論文 参考訳(メタデータ) (2021-03-03T19:16:53Z) - LoRD-Net: Unfolded Deep Detection Network with Low-Resolution Receivers [104.01415343139901]
本稿では,1ビット計測から情報シンボルを復元する「LoRD-Net」というディープ検出器を提案する。
LoRD-Netは、関心のシグナルを回復するためのタスクベースのアーキテクチャである。
無線通信における1ビット信号回復のためのレシーバアーキテクチャの評価を行った。
論文 参考訳(メタデータ) (2021-02-05T04:26:05Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z) - ADRN: Attention-based Deep Residual Network for Hyperspectral Image
Denoising [52.01041506447195]
ノイズの多いHSIからクリーンなHSIへのマッピングを学習するために,注目に基づくディープ残差ネットワークを提案する。
実験の結果,提案手法は定量的および視覚的評価において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-04T08:36:27Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。