論文の概要: Lung-SRAD: Spectral-Aware Regularized Audio DASS with Dual-Axis Patch-Mix Contrastive Learning for Respiratory Sound Classification
- arxiv url: http://arxiv.org/abs/2606.11922v1
- Date: Wed, 10 Jun 2026 10:53:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.421962
- Title: Lung-SRAD: Spectral-Aware Regularized Audio DASS with Dual-Axis Patch-Mix Contrastive Learning for Respiratory Sound Classification
- Title(参考訳): 呼吸音分類のための2軸パッチミクスコントラスト学習によるスペクトル認識型正規化オーディオDASS
- Authors: Hemansh Shridhar, Miika Toikkanen, June-Woo Kim,
- Abstract要約: ステートスペースモデル(State Space Models、SSM)は、呼吸音の分類のための代替のバックボーンである。
選択した層に適用したガウス畳み込みを用いたスペクトル認識層正規化を提案する。
ICBHIベンチマークの実験では、我々のアプローチは64.48%のスコアを獲得し、ASTベースラインを5%上回る結果となった。
- 参考スコア(独自算出の注目度): 2.5081221761654753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent respiratory sound classification (RSC) studies largely rely on CLS-token driven self-attention architectures such as the Audio Spectrogram Transformer (AST). While effective at modeling global context, recent analyses suggest a low-pass filtering behavior that may reduce sensitivity to localized abnormal patterns. In this work, we investigate State Space Models (SSMs) as an alternative backbone for RSC. Using the Distilled Audio State Space model, we analyze intermediate representations through spectral response curves and observe stronger preservation of mid-to-high spatial-frequency components. Based on these observations, we introduce spectral-aware layer regularization using Gaussian convolution applied to selected layers. We further propose Dual-Axis Patch-Mix contrastive learning tailored to SSM-based audio models for robust representation learning. Experiments on the ICBHI benchmark show that our approach achieves 64.48% score, outperforming the AST baseline by 5%. Code is available at https://github.com/RSC-Toolkit/Lung-SRAD.
- Abstract(参考訳): 近年の呼吸音分類 (RSC) の研究は, オーディオ・スペクトログラム・トランスフォーマー (AST) など, CLS-token による自己注意型アーキテクチャに大きく依存している。
グローバルコンテキストのモデリングには有効であるが,近年の研究では,局所的な異常パターンに対する感度を低下させる可能性のある低域フィルタリング挙動が示唆されている。
本研究では,国家空間モデル(SSM)をRCCの代替バックボーンとして検討する。
拡散状態空間モデルを用いて、スペクトル応答曲線を通して中間表現を分析し、中~高空間周波数成分の強い保存を観察する。
これらの観測に基づいて、選択した層に適用したガウス畳み込みを用いたスペクトル認識層正規化を導入する。
また、頑健な表現学習のために、SSMベースの音声モデルに合わせたDual-Axis Patch-Mixのコントラスト学習を提案する。
ICBHIベンチマークの実験では、我々のアプローチは64.48%のスコアを獲得し、ASTベースラインを5%上回る結果となった。
コードはhttps://github.com/RSC-Toolkit/Lung-SRADで入手できる。
関連論文リスト
- PACE: Pretrained Audio Continual Learning [27.605574463021693]
事前学習モデル(PTM)を用いた音声連続学習(CL)のための最初の体系的ベンチマークを提案する。
さらに、スペクトルに基づく境界認識摂動を導入し、表現の重なりを緩和し、安定性を向上させる。
6つの多様なオーディオCLベンチマークの実験は、PACEが最先端のベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2026-02-03T10:28:35Z) - Geometry-Aware Optimization for Respiratory Sound Classification: Enhancing Sensitivity with SAM-Optimized Audio Spectrogram Transformers [0.0]
シャープネス認識最小化(SAM)を用いたAST(Audio Spectrogram Transformer)の拡張フレームワークを提案する。
ICBHI 2017データセットの最先端スコアは68.10%に達し、既存のCNNとハイブリッドベースラインを上回っている。
t-SNEとアテンションマップを用いたさらなる解析により、背景雑音を記憶するのではなく、頑健で差別的な特徴を学習することを確認した。
論文 参考訳(メタデータ) (2025-12-27T11:39:36Z) - Learning Robust Spatial Representations from Binaural Audio through Feature Distillation [64.36563387033921]
データラベルを必要とせずに音声の頑健な空間表現を学習するために,特徴蒸留に基づく事前学習ステージの利用について検討する。
実験により, 事前学習したモデルでは, 騒音および残響環境における性能が向上していることが示された。
論文 参考訳(メタデータ) (2025-08-28T15:43:15Z) - Spatial-Spectral Diffusion Contrastive Representation Network for Hyperspectral Image Classification [8.600534616819333]
本稿では,空間スペクトル拡散コントラスト表現ネットワーク(DiffCRN)を提案する。
DiffCRNは、高スペクトル画像分類のための拡散確率モデル(DDPM)とコントラスト学習(CL)の組み合わせに基づく。
広く使われている4つのHSIデータセットを用いて実験を行い、提案したDiffCRNの性能改善を実証した。
論文 参考訳(メタデータ) (2025-02-27T02:34:23Z) - CycleGuardian: A Framework for Automatic RespiratorySound classification Based on Improved Deep clustering and Contrastive Learning [9.215130010602634]
早期の呼吸器および肺疾患の診断において,聴診は重要な役割を担っている。
既存の最先端モデルは過剰なパラメータサイズに悩まされており、リソース制約のあるモバイルプラットフォームへのデプロイを妨げている。
改良されたディープクラスタリングとコントラスト学習に基づくフレームワークを提案する。
われわれはこのネットワークをAndroidデバイスに展開し、総合的なインテリジェントな呼吸音聴取システムを示す。
論文 参考訳(メタデータ) (2025-02-02T09:56:47Z) - KFD-NeRF: Rethinking Dynamic NeRF with Kalman Filter [49.85369344101118]
KFD-NeRFは,Kalmanフィルタに基づく効率的かつ高品質な運動再構成フレームワークと統合された,新しい動的ニューラル放射場である。
我々のキーとなる考え方は、動的放射場を、観測と予測という2つの知識源に基づいて時間的に異なる状態が推定される動的システムとしてモデル化することである。
我々のKFD-NeRFは、同等の計算時間と最先端の視線合成性能で、徹底的な訓練を施した類似または優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-18T05:48:24Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - Improving Classification Model Performance on Chest X-Rays through Lung
Segmentation [63.45024974079371]
本稿では, セグメンテーションによる異常胸部X線(CXR)識別性能を向上させるための深層学習手法を提案する。
提案手法は,CXR画像中の肺領域を局所化するための深層ニューラルネットワーク(XLSor)と,大規模CXRデータセットで事前学習した自己教師あり運動量コントラスト(MoCo)モデルのバックボーンを用いたCXR分類モデルである。
論文 参考訳(メタデータ) (2022-02-22T15:24:06Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - Improving Stability of LS-GANs for Audio and Speech Signals [70.15099665710336]
このベクトル空間で計算された正規性からジェネレータ最適化の定式化への切り離しの符号化は、より包括的な分光図を作成するのに役立つことを示す。
本手法をベースラインGANと比較してモード崩壊の少ないトレーニングにおける安定性向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-12T17:41:25Z) - CNN-MoE based framework for classification of respiratory anomalies and
lung disease detection [33.45087488971683]
本稿では,聴取分析のための頑健な深層学習フレームワークを提示し,検討する。
呼吸周期の異常を分類し、呼吸音の記録から病気を検出することを目的としている。
論文 参考訳(メタデータ) (2020-04-04T21:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。