論文の概要: Adaptive Speech-to-Spike Encoding for Spiking Neural Networks
- arxiv url: http://arxiv.org/abs/2606.19039v1
- Date: Wed, 17 Jun 2026 13:07:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.17163
- Title: Adaptive Speech-to-Spike Encoding for Spiking Neural Networks
- Title(参考訳): スパイクニューラルネットワークのための適応型音声-スパイク符号化
- Authors: Taharim Rahman Anon, Jakaria Islam Emon,
- Abstract要約: 本稿では,Recurrent Leaky Integrate-and-Fireバックボーンを組み込んだ,学習可能な残音声-スパイクエンコーダについて述べる。
このアプローチをGoogle Speech Commands v2ベンチマークで検証し、94.97%の精度を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The mismatch between continuous acoustic signals and discrete event-driven processing remains a fundamental bottleneck for neuromorphic speech processing. Current systems typically rely on fixed spike encoders, forcing downstream Spiking Neural Networks (SNNs) to compensate for non-adaptive input representations. To address this, we present a learnable residual speech-to-spike encoder jointly trained end-to-end with a Recurrent Leaky Integrate-and-Fire (R-LIF) backbone. We validate this approach on the Google Speech Commands v2 (GSC-v2) benchmark, achieving up to 94.97% accuracy. Notably, the learned encoder remains highly parameter-efficient with a compact 35k-parameter variant that reaches 89.8%, matching or exceeding prior baselines that require an order of magnitude more parameters. Our encoder-focused analysis, including linear probing and gradient-residual inspection, indicates that the encoder does not target faithful signal reconstruction but instead learns task-aligned spike representations that enhance class separability. Finally, we benchmark bio-inspired, hardware-friendly credit assignment by comparing Direct Feedback Alignment (DFA) with surrogate-gradient BPTT under identical architectures and training conditions. We find that DFA reaches 91.5% accuracy, quantifying the performance trade-off of bio-inspired learning rules for modern neuromorphic audio.
- Abstract(参考訳): 連続音響信号と離散事象駆動処理のミスマッチは、ニューロモルフィック音声処理の基本的なボトルネックである。
現在のシステムは固定スパイクエンコーダに依存しており、下流のスパイキングニューラルネットワーク(SNN)は非適応的な入力表現を補償しなければならない。
そこで本研究では,Recurrent Leaky Integrate-and-Fire(R-LIF)バックボーンを組み込んだ,学習可能な残音声-スパイクエンコーダを提案する。
このアプローチをGoogle Speech Commands v2 (GSC-v2)ベンチマークで検証し、94.97%の精度を実現した。
特に、学習したエンコーダは、89.8%に達するコンパクトな35kパラメータの変種と非常にパラメータ効率が良い。
線形探索や勾配残差検査を含むエンコーダに着目した分析は,エンコーダが忠実な信号再構成を目標とせず,クラス分離性を高めるためのタスク整列スパイク表現を学習していることを示す。
最後に,DFA(Direct Feedback Alignment)とSurrogate-gradient BPTTを同一のアーキテクチャとトレーニング条件下で比較することにより,バイオインスパイアされたハードウェアフレンドリーなクレジット割り当てをベンチマークする。
DFAの精度は91.5%に達し、現代のニューロモーフィックオーディオに対するバイオインスパイアされた学習規則のパフォーマンストレードオフを定量化する。
関連論文リスト
- WISV: Wireless-Informed Semantic Verification for Distributed Speculative Decoding in Device-Edge LLM Inference [56.297697169678095]
WISV(Wireless-Informed Semantic Verification)は、分散投機的復号化フレームワークである。
WISVは最大60.8%の許容長の増加、37.3%の対話ラウンドの削減、31.4%のエンドツーエンドレイテンシの改善を実現している。
NVIDIA Jetson AGX OrinとA40搭載サーバからなるハードウェアテストベッド上でWISVを検証する。
論文 参考訳(メタデータ) (2026-04-20T01:29:56Z) - Latent-Mark: An Audio Watermark Robust to Neural Resynthesis [62.09761127079914]
Latent-Markはセマンティック圧縮に耐えられるように設計された最初のゼロビットオーディオ透かしフレームワークである。
私たちの重要な洞察は、エンコード-デコードプロセスに対する堅牢性は、不変の潜在空間に透かしを埋め込む必要があるということです。
我々の研究は、ますます複雑で多様な生成歪みをまたいで整合性を維持することができる普遍的な透かしフレームワークに、将来の研究をインスピレーションを与えます。
論文 参考訳(メタデータ) (2026-03-05T15:51:09Z) - Self-Supervised Learning via Flow-Guided Neural Operator on Time-Series Data [57.85958428020496]
Flow-Guided Neural Operator (FGNO)は、演算子学習とフローマッチングを組み合わせた新しいフレームワークである。
FGNOは、短時間フーリエ変換を用いて関数空間のマッピングを学習し、異なる時間分解能を統一する。
推論中にノイズのある入力を使用する以前の生成SSL法とは異なり、ノイズのある表現を学習しながら、クリーンな入力を用いて表現抽出を行う。
論文 参考訳(メタデータ) (2026-02-12T18:54:57Z) - Hybrid Autoencoders for Tabular Data: Leveraging Model-Based Augmentation in Low-Label Settings [13.591018807414484]
本稿では,ニューラルエンコーダと難解なソフト決定木(OSDT)エンコーダを組み合わせたハイブリッドオートエンコーダを提案する。
提案手法は,多種多様なデータセットにまたがる低ラベル分類と回帰において一貫した向上を実現し,深部および木に基づく教師付きベースラインを向上する。
論文 参考訳(メタデータ) (2025-11-10T11:08:39Z) - Physics-Informed Neural Networks with Fourier Features and Attention-Driven Decoding [0.0]
本稿では、2つの重要な問題に対処するPINformerのエンコーダであるSpectral PINformer(S-Pformer)を紹介する。
自己アテンションのみに依存する場合,エンコーダは相関を捉える必要がなく,パラメータ数が減少することがわかった。
我々のモデルは、すべてのベンチマークでエンコーダ・コーダのPINformerアーキテクチャよりも優れています。
論文 参考訳(メタデータ) (2025-10-06T21:23:09Z) - CwA-T: A Channelwise AutoEncoder with Transformer for EEG Abnormality Detection [0.4448543797168715]
CwA-Tは、チャネルワイズCNNベースのオートエンコーダと、効率的なEEG異常検出のためのシングルヘッドトランスフォーマー分類器を組み合わせた、新しいフレームワークである。
TUH異常脳波コーパスを用いて、提案モデルは85.0%の精度、76.2%の感度、91.2%の特異性を達成する。
この枠組みはチャネル設計を通じて解釈可能性を維持しており、神経科学研究や臨床実践における将来の応用の可能性を示している。
論文 参考訳(メタデータ) (2024-12-19T04:38:34Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。