論文の概要: DTT-BSR+: A Generative-Regression Cascade for Music Source Restoration
- arxiv url: http://arxiv.org/abs/2606.24127v1
- Date: Tue, 23 Jun 2026 04:22:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.762194
- Title: DTT-BSR+: A Generative-Regression Cascade for Music Source Restoration
- Title(参考訳): DTT-BSR+:音楽ソース復元のための生成回帰カスケード
- Authors: Youran Ni, Shihong Tan, Yuzhu Wang, Gongping Huang,
- Abstract要約: DTT-BSR+ は2段階のカスケード MSR システムで、信号再構成から別々の段階に分割する。
第1段階のDTT-BSRセパレータは、クリーンソースの先行と一致する茎を生成する。
第2段階のデムーズネットワークは、時間領域と多重解像度のスペクトル損失を用いた第1段階の出力を向上する。
- 参考スコア(独自算出の注目度): 13.053766595316224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music source restoration (MSR) requires jointly addressing source unmixing and the inversion of non-linear production effects. Current methods struggle to achieve accurate target signal reconstruction while maintaining semantic consistency. To address this limitation, we propose DTT-BSR+, a two-stage cascade MSR system that decouples distribution fitting from signal reconstruction into separate stages. A generative DTT-BSR separator in the first stage produces stems matching the prior of clean sources, and a modified Demucs network in the second stage enhances the first stage output using time-domain and multi-resolution spectral losses. DTT-BSR+ improves multi-mel signal-to-noise ratio (MMSNR) over the single-stage DTT-BSR across all stems, and surpasses the state-of-the-art X-LANCE MSR system on five stems. We also reveal through Fréchet Audio Distance (FAD) decomposition an implicit trade-off between signal reconstruction accuracy and semantic distribution fitting across stems.
- Abstract(参考訳): 音楽ソース復元 (MSR) は、ソースのアンミックスと非線形生産効果の逆変換を共同で行う必要がある。
現在の手法は、セマンティック一貫性を維持しつつ、正確なターゲット信号再構成を実現するのに苦労している。
この制限に対処するため,DTT-BSR+を信号再構成から分離した2段階のカスケードMSRシステムとして提案する。
第1段のDTT-BSR分離器はクリーンソースの先行と一致する茎を生成し、第2段の修正Demucsネットワークは時間領域と多分解能スペクトル損失を用いて第1段の出力を増強する。
DTT-BSR+は、全幹にまたがる単段DTT-BSRよりもMMSNR(Multi-mel signal-to-noise ratio)を改善し、5本の幹上の最先端のX-LANCE MSRシステムを上回る。
また、Fréchet Audio Distance (FAD) の分解により、信号再構成精度と幹間の意味分布の整合性の間の暗黙のトレードオフを明らかにする。
関連論文リスト
- HIR-ALIGN: Enhancing Hyperspectral Image Restoration via Diffusion-Based Data Generation [50.46910397782266]
ハイパスペクトル画像(HSI)の復元は、ノイズ、ぼかし、分解能損失などの劣化に悩まされるため、信頼性の高い解析に不可欠である。
本稿では,HIR-ALIGNを提案する。HIR-ALIGNは,限られたトレーニング画像と,ターゲット分布と密に一致した合成データとを付加して,ハイパースペクトル画像の復元を促進するための,プラグアンドプレイのターゲット適応型拡張フレームワークである。
論文 参考訳(メタデータ) (2026-05-13T14:14:13Z) - Learning to Separate RF Signals Under Uncertainty: Detect-Then-Separate vs. Unified Joint Models [53.79667447811139]
受信した信号に直接適用した場合、単一のディープニューラルネットワークアーキテクチャが共同で検出および分離することを学習していることを示す。
これらの結果から,UJM は DTS に代わるスケーラブルで実用的な代替品であり,広範に推定された統合分離のための新たな方向を開拓した。
論文 参考訳(メタデータ) (2026-02-04T15:25:02Z) - SFP: Real-World Scene Recovery Using Spatial and Frequency Priors [84.27251794411673]
シーンリカバリは様々なコンピュータビジョンアプリケーションにとって重要なタスクである。
本研究では,現実のシーンを再現するための空間的・周波数的優先度(SFP)を提案する。
論文 参考訳(メタデータ) (2025-12-09T05:24:25Z) - GENRE-CMR: Generalizable Deep Learning for Diverse Multi-Domain Cardiac MRI Reconstruction [0.8749675983608171]
本稿では,GAN(Generative Adversarial Network)ベースのアーキテクチャであるGENRE-CMRを提案する。
実験により、GENRE-CMRはトレーニングおよび未確認データに関する最先端の手法を超越し、未確認の分布に対して 0.9552 SSIM と 38.90 dB PSNR を達成したことが確認された。
我々のフレームワークは、高品質なCMR再構成のための統一的で堅牢なソリューションを提供し、不均一な取得プロトコルをまたいだ臨床適応可能なデプロイメントの道を開く。
論文 参考訳(メタデータ) (2025-08-28T09:43:59Z) - GDSR: Global-Detail Integration through Dual-Branch Network with Wavelet Losses for Remote Sensing Image Super-Resolution [30.21425157733119]
リモートセンシング画像(RSI)におけるRWKV(Receptance Weighted Key Value)の新たな応用について紹介する。
本稿では,RWKVと畳み込み演算を並列に行い,大規模RSIを扱うGDSRを提案する。
さらに、二重グループサブバンド戦略によるウェーブレット領域制約機構であるDual-Group Multi-Scale Wavelet Lossを提案する。
論文 参考訳(メタデータ) (2024-12-31T10:43:19Z) - REGAS: REspiratory-GAted Synthesis of Views for Multi-Phase CBCT
Reconstruction from a single 3D CBCT Acquisition [75.64791080418162]
REGASは、アンダーサンプドトモグラフィビューを合成し、再構成画像中のアーティファクトのエイリアスを緩和する自己教師手法を提案する。
高解像度4Dデータ上でのディープニューラルネットワークの大規模なメモリコストに対処するため、REGASは分散して微分可能なフォワードプロジェクションを可能にする新しいレイパス変換(RPT)を導入した。
論文 参考訳(メタデータ) (2022-08-17T03:42:19Z) - Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition
with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。
D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文 参考訳(メタデータ) (2020-10-30T20:26:28Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。