論文の概要: BASENet: Band-Adapted Speech Enhancement Network with Cross-Band Attention
- arxiv url: http://arxiv.org/abs/2606.12662v1
- Date: Wed, 10 Jun 2026 20:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.4542
- Title: BASENet: Band-Adapted Speech Enhancement Network with Cross-Band Attention
- Title(参考訳): BASENet:クロスバンドを考慮した帯域適応音声強調ネットワーク
- Authors: Damien Martins Gomes, François Capman,
- Abstract要約: BASENetは、スペクトルをバークスケールのバンドに分割し、それぞれに臨界帯域密度から派生したスケール容量エンコーダを割り当てる。
クロスバンドアテンションモジュールは、線形複雑度でコンパクトな周波数プール表現を通じて、バンド間の高調波依存性をキャプチャする。
因果的変種(3.44 PESQ)はいくつかの非因果的ベースラインを超え、リソース制約のあるデバイス上でのリアルタイムストリーミングに適していることを確認した。
- 参考スコア(独自算出の注目度): 0.8594140167290097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech enhancement models typically apply uniform capacity across all frequencies, disregarding the non-uniform spectral resolution of human hearing. We propose BASENet, a frequency-adapted architecture that partitions the spectrum into Bark-scale bands and assigns each a scaled-capacity encoder derived from critical-band density, automatically granting deeper branches to perceptually dense low frequencies and lighter ones to high frequencies. A cross-band attention module captures harmonic dependencies across bands through compact frequency-pooled representations at linear complexity. Built on inverted residual blocks with dense connectivity and a convolutional recurrent network, BASENet achieves 3.55 PESQ and STOI~96% on VoiceBank+DEMAND with only 0.83M parameters and 7.3 G~MACs, the fewest parameters among all methods with PESQ > 3.50. A causal variant (3.44 PESQ) surpasses several non-causal baselines, confirming suitability for real-time streaming on resource-constrained devices.
- Abstract(参考訳): 音声強調モデルは、典型的には全周波数にわたって均一なキャパシティを適用し、人間の聴覚における一様でないスペクトル分解能を無視している。
本稿では、バークスケールの帯域にスペクトルを分割し、臨界帯域密度から導かれる拡張容量エンコーダをそれぞれ割り当てる周波数適応アーキテクチャであるBASENetを提案する。
クロスバンドアテンションモジュールは、線形複雑度でコンパクトな周波数プール表現を通じて、バンド間の高調波依存性をキャプチャする。
BASENetは高密度接続と畳み込みリカレントネットワークを備えた逆ブロック上に構築されており、VoiceBank+DEMANDで3.55 PESQとSTOI~96%を達成している。
因果的変種(3.44 PESQ)はいくつかの非因果的ベースラインを超え、リソース制約のあるデバイス上でのリアルタイムストリーミングの適性を確認する。
関連論文リスト
- ZoomSpec: A Physics-Guided Coarse-to-Fine Framework for Wideband Spectrum Sensing [7.560433707709695]
ZoomSpecは物理誘導型粗粒度フレームワークで、信号処理の事前処理とディープラーニングを統合している。
SpaceNetのリアルタイムデータセットの評価では、最先端の78.1 mAP@0.5:0.95が示されている。
論文 参考訳(メタデータ) (2026-04-15T07:29:25Z) - Wideband Quantum Transduction for Rydberg Atomic Receivers Using Six-Wave Mixing [49.799227408938144]
ライドバーグ原子受信機は電場に対して非常に高い感度を持つ。
従来の電磁誘導透過(EIT)下での有効3dBベースバンド帯域幅は、通常、数十から数百キロヘルツに制限される。
広帯域無線周波数(RF)-光量子トランスデューサとして6波混合(SWM)ベースのRydberg原子受信機について検討する。
論文 参考訳(メタデータ) (2026-02-15T02:08:30Z) - EuleroDec: A Complex-Valued RVQ-VAE for Efficient and Robust Audio Coding [18.199202388702144]
ほとんどの周波数領域のニューラルコーデックは位相情報を無視するか、2つの独立した実数値チャネルとして符号化し、空間的忠実度を制限する。
これは、収束速度と訓練安定性を犠牲にして、敵対的差別者を導入する必要がある。
本研究では,解析量子化合成パイプライン全体にわたる大域的位相結合を保存する,終端から終端までの複雑なRVQ-VAEオーディオを紹介する。
論文 参考訳(メタデータ) (2026-01-24T16:34:07Z) - FLaTEC: Frequency-Disentangled Latent Triplanes for Efficient Compression of LiDAR Point Clouds [52.997038111673966]
FLaTECは、圧縮率の高いフルスキャンの圧縮を可能にする周波数対応圧縮モデルである。
ボキセル化埋め込みを三面体表現に変換することで、空間性、計算コスト、ストレージ要件を低減する。
提案手法は,最先端の速度歪み性能を実現し,標準コーデックのBDレートを78%,94%向上させる。
論文 参考訳(メタデータ) (2025-11-25T08:37:49Z) - FADPNet: Frequency-Aware Dual-Path Network for Face Super-Resolution [70.61549422952193]
計算コストの制限による顔超解像(FSR)は未解決の問題である。
既存のアプローチでは、全ての顔のピクセルを等しく扱い、計算資源を最適以下に割り当てる。
本稿では、低周波成分と高周波成分に顔の特徴を分解する周波数対応デュアルパスネットワークであるFADPNetを提案する。
論文 参考訳(メタデータ) (2025-06-17T02:33:42Z) - Packet Header Recognition Utilizing an All-Optical Reservoir Based on Reinforcement-Learning-Optimized Double-Ring Resonator [13.657044127819393]
本稿では,統合二重リング共振器(DRR)をノードとする全光貯留層を提案する。
ディープ強化学習アルゴリズムはノードの遅延帯域幅積(DBP)を最大化するために用いられる。
3ビットおよび6ビットのパケットヘッダ認識タスクは、全光貯水池で実行される。
論文 参考訳(メタデータ) (2023-08-26T09:00:12Z) - Deep Learning-Based Synchronization for Uplink NB-IoT [72.86843435313048]
狭帯域モノのインターネット(NB-IoT)における狭帯域物理ランダムアクセスチャネル(NPRACH)のデバイス検出と到着時刻推定のためのニューラルネットワーク(NN)に基づくアルゴリズムを提案する。
導入されたNNアーキテクチャは、残余の畳み込みネットワークと、5Gニューラジオ(5G NR)仕様のプリアンブル構造に関する知識を利用する。
論文 参考訳(メタデータ) (2022-05-22T12:16:43Z) - FullSubNet+: Channel Attention FullSubNet with Complex Spectrograms for
Speech Enhancement [43.477179521051355]
本稿では,FullSubNet+と呼ばれる拡張シングルチャネルリアルタイム音声強調フレームワークを提案する。
DNS Challengeデータセットの実験結果は、FullSubNet+の優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-03-23T04:33:09Z) - Frequency-bin entanglement from domain-engineered down-conversion [101.18253437732933]
フィルタや共振器の共振器を用いない離散周波数ビン絡みの単一パス源を提案する。
ドメインエンジニアリングされた非線形結晶を用いて、通信波長で8モードの周波数ビン絡み合った光源を生成する。
論文 参考訳(メタデータ) (2022-01-18T19:00:29Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。