論文の概要: Fast-SDE: Efficient Single-Microphone Sound Source Distance Estimation in Reverberant Environments
- arxiv url: http://arxiv.org/abs/2606.12339v1
- Date: Wed, 10 Jun 2026 17:08:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 14:07:05.921973
- Title: Fast-SDE: Efficient Single-Microphone Sound Source Distance Estimation in Reverberant Environments
- Title(参考訳): 高速SDE:残響環境における高効率単一マイクロホン音源距離推定
- Authors: Jiang Wang, Runwu Shi, Yaozhong Kang, Benjamin Yen, Takeshi Ashizawa, Kazuhiro Nakadai,
- Abstract要約: 音源距離推定(SDE)は人間とロボットの相互作用において重要な能力である。
Fast-SDEは軽量のシングルマイクロフォンSDEフレームワークで、ロボットプラットフォームへのデプロイに適している。
- 参考スコア(独自算出の注目度): 5.863937104427355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sound source distance estimation (SDE) is a critical capability in human-robot interaction. An inappropriate interaction distance not only reduces the reliability of speech acquisition and understanding, but also compromises the naturalness and comfort of the interaction. Most existing SDE methods rely on microphone arrays, however, multi-microphone systems typically require careful hardware synchronization, geometric calibration, and additional space and computational resources, which limits applicability to size-constrained and computability-limited embodied platforms. To alleviate these issues, we propose Fast-SDE, a lightweight single-microphone SDE framework that is suited for deployment on robot platforms with limited computational resources and strict size constraints. Specifically, Fast-SDE employs a subband-based backbone that decomposes the frequency axis into multiple subbands, rather than processing the entire spectrum with a wide full-band backbone. A shared subband encoder then maps each subband to a compact latent representation and learns the relationship between acoustic structure and time-frequency patterns. Finally, a lightweight regression head converts the fused subband representations into the estimated distance. Extensive simulation and real-world experiments demonstrate the merits of the proposed method. To benefit the broader research community, we have open-sourced our code at https://github.com/JiangWAV/FAST-SDE.
- Abstract(参考訳): 音源距離推定(SDE)は人間とロボットの相互作用において重要な能力である。
不適切な相互作用距離は、音声の獲得と理解の信頼性を低下させるだけでなく、相互作用の自然さと快適さを損なう。
既存のSDE方式の多くはマイクロホンアレイに依存しているが、マルチマイクロフォン方式ではハードウェア同期、幾何キャリブレーション、追加の空間と計算資源を必要とする。
これらの問題を緩和するために,ロボットプラットフォームに限られた計算資源と厳密なサイズ制約を持つ軽量シングルマイクロフォンSDEフレームワークであるFast-SDEを提案する。
具体的には、Fast-SDEは、広帯域バックボーンでスペクトル全体を処理するのではなく、周波数軸を複数のサブバンドに分解するサブバンドベースのバックボーンを使用している。
共有サブバンドエンコーダは、各サブバンドをコンパクトな潜在表現にマッピングし、音響構造と時間周波数パターンの関係を学習する。
最後に、軽量回帰ヘッドは、融合したサブバンド表現を推定距離に変換する。
シミュレーションと実世界の実験により,提案手法の有効性が示された。
より広範な研究コミュニティのために、私たちはhttps://github.com/JiangWAV/FAST-SDEでコードをオープンソース化しました。
関連論文リスト
- Device-Conditioned Neural Architecture Search for Efficient Robotic Manipulation [16.017058636822025]
我々はtextbfDevice-textbfConditioned textbfQuantization-textbfFor-textbfAll (DC-QFA) という統合フレームワークを提案する。
DC-QFAは、デバイス条件の量子化対応トレーニングとハードウェア制約のあるアーキテクチャサーチによるデプロイメントの取り組みを改善している。
論文 参考訳(メタデータ) (2026-04-11T11:36:16Z) - Learning to Separate RF Signals Under Uncertainty: Detect-Then-Separate vs. Unified Joint Models [53.79667447811139]
受信した信号に直接適用した場合、単一のディープニューラルネットワークアーキテクチャが共同で検出および分離することを学習していることを示す。
これらの結果から,UJM は DTS に代わるスケーラブルで実用的な代替品であり,広範に推定された統合分離のための新たな方向を開拓した。
論文 参考訳(メタデータ) (2026-02-04T15:25:02Z) - CaSNet: Compress-and-Send Network Based Multi-Device Speech Enhancement Model for Distributed Microphone Arrays [7.055278049135969]
分散マイクロホンアレイ(DMA)は,音声対話のための次世代プラットフォームである。
本稿では資源制約付きDMAのためのemphCompress-and-Send Network(CaSNet)を提案する。
CaSNetは、圧縮されていないケースと比較して、パフォーマンスに無視できる影響でデータ量を保存することができる。
論文 参考訳(メタデータ) (2026-01-25T05:50:16Z) - Soft Partition-based KAPI-ELM for Multi-Scale PDEs [0.0]
この研究は、ソフトパーティションベースのKernel-Adaptive Physics-Informed Extreme Learning Machineを導入している。
符号付き距離に基づく重み付けは、不規則周波数で学習する最小二乗を安定化させる。
定常線形PDE上では実証されているが、結果は、ソフトパーティションカーネル適応が、マルチスケールPDEに対して高速でアーキテクチャフリーなアプローチを提供することを示している。
論文 参考訳(メタデータ) (2026-01-13T16:43:38Z) - Transformer Redesign for Late Fusion of Audio-Text Features on Ultra-Low-Power Edge Hardware [0.4104352271917982]
マルチモーダル感情認識はディープラーニングを通じて進歩してきたが、ほとんどのシステムは超制約エッジデバイスへの展開には適していない。
本稿では,エッジTPUに最適化したレイトフュージョンアーキテクチャを用いて,音響的特徴と言語的特徴を組み合わせたハードウェア対応感情認識システムを提案する。
論文 参考訳(メタデータ) (2025-10-20T19:18:22Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。