論文の概要: What Do Neural Networks Learn for TDOA Estimation? A Cross-Architecture Probing Study
- arxiv url: http://arxiv.org/abs/2606.22020v1
- Date: Sat, 20 Jun 2026 12:48:52 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 15:21:38.256005
- Title: What Do Neural Networks Learn for TDOA Estimation? A Cross-Architecture Probing Study
- Title(参考訳): ニューラルネットワークはTDOA推定に何を学ぶか? クロスアーキテクチャ調査
- Authors: Yaozhong Kang, Jiang Wang, Runwu Shi, Takeshi Ashizawa, Benjamin Yen, Kazuhiro Nakadai,
- Abstract要約: 我々はGCC-PHATの数学的ステップを診断ターゲットに変換する。
GCC-PHATの定義段階であるPHAT白化は発生しない。
ネットワークは、PHATによって破棄された周波数毎の信頼性情報を保存する、マグニチュード対応の周波数重み付けを学習する。
- 参考スコア(独自算出の注目度): 5.863937104427355
- License:
- Abstract: Neural networks outperform classical GCC-PHAT for Time-Difference-of-Arrival (TDOA) estimation in noise and reverberation, yet their internal strategy remains unexplored. To uncover it, we turn GCC-PHAT's mathematical steps into diagnostic targets, probing hidden layers of three architectures (MLP, CNN, Transformer) and complementing with gradient attribution and causal frequency masking. We find that cross-power computation consistently emerges across all architectures and conditions, while PHAT whitening, the defining step of GCC-PHAT, fails to emerge. Instead, networks learn a magnitude-aware frequency weighting that preserves per-frequency reliability information discarded by PHAT. This makes PHAT an information bottleneck: removing it from both classical and neural GCC pipelines improves performance under additive noise. On real-world reverberant data, PHAT remains the best classical weighting, but end-to-end networks achieve lower error by learning data-adaptive weighting.
- Abstract(参考訳): ニューラルネットワークは、ノイズと残響におけるTDOA(Time-Difference-of-Arrival)推定において、古典的なGCC-PHATよりも優れているが、内部戦略は未定である。
GCC-PHATの数学的ステップを診断対象とし、3つのアーキテクチャ(MLP、CNN、Transformer)の隠れた層を探索し、勾配属性と因果周波数マスキングを補完する。
GCC-PHAT の定義ステップであるPHAT の白化は実現しないが,クロスパワー計算はすべてのアーキテクチャや条件に一貫して現れる。
代わりに、ネットワークは、PHATによって破棄された周波数毎の信頼性情報を保存する、マグニチュード対応の周波数重み付けを学習する。
これによりPHATは情報ボトルネックとなり、古典的かつニューラルなGCCパイプラインから取り除くことで、加算雑音下でのパフォーマンスが向上する。
実世界の残響データでは、PHATは依然として最も優れた古典的な重み付けであるが、エンドツーエンドのネットワークはデータ適応重み付けを学習することで低い誤差を達成する。
関連論文リスト
- A Latency Coding Framework for Deep Spiking Neural Networks with Ultra-Low Latency [51.75891259753546]
スパイキングニューラルネットワーク(SNN)は、エネルギー効率のよいニューラル処理に重要な可能性を持つ生物学的にインスパイアされたコンピューティングパラダイムを提供する。
Time-To-First-Spike (TTFS)コーディングは、ニューロンの最初のスパイクの正確なタイミングを通じて情報を符号化する。
TTFSモデルには効率的なトレーニング方法がなく、高い推論遅延と限られたパフォーマンスに悩まされている。
本稿では,バックプロパゲーション・スロー・タイム(BPTT)アルゴリズムを用いて,深層TTFS符号化SNNの効率的なトレーニングを可能にする包括的フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-24T13:52:03Z) - Data-Driven Deep MIMO Detection:Network Architectures and Generalization Analysis [50.20709408241935]
本稿では,ネットワーク・オブ・MLPにおける完全データ駆動型DeepSIC検出の検証を提案する。
このようなアーキテクチャでは、グラフニューラルネットワーク(GNN)を使用したグラフベースのメッセージパッシングプロセスとして、DeepSICをアップグレードすることができる。
GNNSICは、訓練可能なパラメータが大幅に少ないDeepSICに匹敵する優れた表現性を達成する。
論文 参考訳(メタデータ) (2026-02-13T04:38:51Z) - Self-Supervised Learning via Flow-Guided Neural Operator on Time-Series Data [57.85958428020496]
Flow-Guided Neural Operator (FGNO)は、演算子学習とフローマッチングを組み合わせた新しいフレームワークである。
FGNOは、短時間フーリエ変換を用いて関数空間のマッピングを学習し、異なる時間分解能を統一する。
推論中にノイズのある入力を使用する以前の生成SSL法とは異なり、ノイズのある表現を学習しながら、クリーンな入力を用いて表現抽出を行う。
論文 参考訳(メタデータ) (2026-02-12T18:54:57Z) - Exploring the Relationship between Brain Hemisphere States and Frequency Bands through Deep Learning Optimization Techniques [3.966519779235704]
本研究は,脳波周波数帯域における様々な畳み込みを用いた性能評価を行い,左右半球の効率的なクラス予測について検討した。
Adagrad と RMSprop は、異なる周波数帯域で一貫して良好に動作し、Adadelta はクロスモデル評価において堅牢な性能を示した。
深層ネットワークは複雑なパターンを学習する際の競合性能を示すが、浅い3層ネットワークは精度が低い場合があり、計算効率が向上する。
論文 参考訳(メタデータ) (2025-09-17T15:26:45Z) - Efficient Memristive Spiking Neural Networks Architecture with Supervised In-Situ STDP Method [0.0]
時間的スパイクエンコーディングを備えたメムリスタベースのスパイキングニューラルネットワーク(SNN)は、超低エネルギー計算を可能にする。
本稿では,新しい教師付きin-situ学習アルゴリズムを用いて学習した回路レベルのメムリシブスパイクニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-07-28T17:09:48Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Extending GCC-PHAT using Shift Equivariant Neural Networks [17.70159660438739]
位相変換(GCC-PHAT)と一般化された相互相関に基づく手法が話者定位に広く採用されている。
本稿では、シフト同変ニューラルネットワークを用いて受信信号をフィルタリングするGCC-PHATの拡張手法を提案する。
本モデルでは,GCC-PHATの誤差を常に低減し,正確な時間遅延回復を保証している。
論文 参考訳(メタデータ) (2022-08-09T10:31:10Z) - Navigating Local Minima in Quantized Spiking Neural Networks [3.1351527202068445]
深層学習(DL)アルゴリズムの超効率的な実装においては,スパイキングと量子ニューラルネットワーク(NN)が極めて重要になっている。
これらのネットワークは、ハードしきい値を適用する際の勾配信号の欠如により、エラーのバックプロパゲーションを使用してトレーニングする際の課題に直面している。
本稿では,コサインアニールLRスケジュールと重み非依存適応モーメント推定を併用したシステム評価を行った。
論文 参考訳(メタデータ) (2022-02-15T06:42:25Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Analytically Tractable Inference in Deep Neural Networks [0.0]
Tractable Approximate Inference (TAGI)アルゴリズムは、浅いフルコネクテッドニューラルネットワークのバックプロパゲーションに対する実行可能でスケーラブルな代替手段であることが示された。
従来のディープニューラルネットワークアーキテクチャをトレーニングするために、TAGIがバックプロパゲーションのパフォーマンスとどのように一致するか、または上回るかを実証しています。
論文 参考訳(メタデータ) (2021-03-09T14:51:34Z) - Rectified Linear Postsynaptic Potential Function for Backpropagation in
Deep Spiking Neural Networks [55.0627904986664]
スパイキングニューラルネットワーク(SNN)は、時間的スパイクパターンを用いて情報を表現し、伝達する。
本稿では,情報符号化,シナプス可塑性,意思決定におけるスパイクタイミングダイナミクスの寄与について検討し,将来のDeepSNNやニューロモルフィックハードウェアシステムの設計への新たな視点を提供する。
論文 参考訳(メタデータ) (2020-03-26T11:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。