論文の概要: Spectro-Temporal Interference Confounds Phase Encoding in Spatial Audio Foundation Models
- arxiv url: http://arxiv.org/abs/2606.14820v1
- Date: Fri, 12 Jun 2026 12:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.256244
- Title: Spectro-Temporal Interference Confounds Phase Encoding in Spatial Audio Foundation Models
- Title(参考訳): 空間音響基礎モデルにおけるスペクトル時間干渉による位相符号化
- Authors: Yuxuan Chen, Haoyuan Yu, Peize He,
- Abstract要約: この等化を評価するために,マスキングレベル差に基づく心理音響ベンチマークを提案する。
SSL,モノオーラルSSL,ニューラルオーディオコーデックにまたがる9つの凍結オーディオモデルを評価する。
- 参考スコア(独自算出の注目度): 11.336425518571021
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent spatial self supervised audio models achieve high performance on localization tasks, raising questions about their encoding of microsecond interaural phase fine structures. We propose a psychoacoustic benchmark based on the binaural masking level difference to evaluate this. Using an equalization cancellation baseline and a GCC PHAT positive control we evaluate nine frozen audio models spanning binaural SSL, monaural SSL, and neural audio codecs. Four monaural negative controls yield zero BMLD confirming binaural specificity. Two general purpose binaural SSL models exhibit minimal phase sensitivity while dedicated binaural spatial SSL models achieve BMLD comparable to the analytical baseline. Progressive physical ablations show that general purpose binaural SSL models rely on spectro temporal interference textures rather than cross channel phase computation. High detection rates in speech reflect a confounding reliance on broadband envelopes rather than genuine phase encoding.
- Abstract(参考訳): 近年の空間自己教師型音声モデルは、局所化タスクにおいて高い性能を達成し、マイクロ秒間位相微細構造の符号化に関する疑問を提起している。
本稿では,バイノーラルマスキングレベル差に基づく心理音響ベンチマークを提案し,その評価を行った。
バイノーラルSSL,モノオーラルSSL,ニューラルオーディオコーデックにまたがる9つの凍結オーディオモデルについて,同化キャンセルベースラインとGCC PHAT陽性制御を用いて評価した。
4つのモノナール陰性制御は、バイノーラル特異性を確認するBMLDをゼロにする。
2つの汎用バイノーラルSSLモデルは最小位相感度を示し、一方、専用バイノーラル空間SSLモデルは解析ベースラインに匹敵するBMLDを達成する。
プログレッシブ物理アブレーションにより、汎用のバイノーラルSSLモデルは、チャネル間位相計算よりもスペクトル時間的干渉テクスチャに依存していることが示された。
音声における高い検出率は、真の位相符号化ではなく、ブロードバンドのエンベロープに依存していることを反映している。
関連論文リスト
- The Differentiable Auditory Loop (DAL): An ML Framework for Hyper-Personalized Hearing Aids [37.1481573639646]
そこで我々は、パーソナライズされた補聴器の設計と装着のための新しいオープンソースフレームワークであるDAL(Dariable Auditory Loop)を紹介した。
DALの最初の実装は、JAXに移植したヒト人工内耳機能の微分可能なモデルであるCARFACを組み込んだものです。
正常聴力に適合するCARFACモデルの出力と、各被験者の個々の聴覚障害に適合するCARFACモデルの出力とを比較して、ネットワークを微調整する。
論文 参考訳(メタデータ) (2026-06-02T18:09:51Z) - Systematic Evaluation of Time-Frequency Features for Binaural Sound Source Localization [47.16858222861157]
本研究は,多種多様な条件における特徴選択がモデル性能に与える影響に焦点を当てた。
本稿では,振幅に基づく様々な特徴の組み合わせを用いた畳み込みニューラルネットワーク(CNN)モデルの性能について検討する。
論文 参考訳(メタデータ) (2025-11-17T15:25:49Z) - Learning Robust Spatial Representations from Binaural Audio through Feature Distillation [64.36563387033921]
データラベルを必要とせずに音声の頑健な空間表現を学習するために,特徴蒸留に基づく事前学習ステージの利用について検討する。
実験により, 事前学習したモデルでは, 騒音および残響環境における性能が向上していることが示された。
論文 参考訳(メタデータ) (2025-08-28T15:43:15Z) - Spiking-LEAF: A Learnable Auditory front-end for Spiking Neural Networks [53.31894108974566]
Spiking-LEAFは、SNNベースの音声処理用に慎重に設計された学習可能な聴覚フロントエンドである。
キーワードスポッティングと話者識別タスクにおいて、提案したSpking-LEAFは、聴覚フロントエンドのSOTAよりも優れている。
論文 参考訳(メタデータ) (2023-09-18T04:03:05Z) - Self-supervised Neural Factor Analysis for Disentangling Utterance-level
Speech Representations [30.293081541301746]
wav2vecやHuBERTのような自己教師付き学習(SSL)音声モデルは、音声認識における最先端の性能を実証している。
この問題は,不整合表現の欠如と発話レベルの学習目標が原因である。
我々のモデルは、SUPERBベンチマークの全ての発話レベル非意味タスクにおいて、ラベル付きデータのわずか20%で、現在の最高のモデルであるWavLMより優れています。
論文 参考訳(メタデータ) (2023-05-14T08:26:24Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。