論文の概要: Optimizing 2D Input Representations and Sub-phase Fusion Strategies for Differential Diagnosis of Asthma and COPD Using CNN- and GRU-Based Networks
- arxiv url: http://arxiv.org/abs/2606.10972v1
- Date: Tue, 09 Jun 2026 15:12:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.576003
- Title: Optimizing 2D Input Representations and Sub-phase Fusion Strategies for Differential Diagnosis of Asthma and COPD Using CNN- and GRU-Based Networks
- Title(参考訳): CNNおよびGRUネットワークを用いた喘息とPDの鑑別診断のための2次元入力表現とサブフェーズ融合戦略の最適化
- Authors: Ipek Sen, Ozgur Ozdemir, Elena Battini Sonmez,
- Abstract要約: 肺の音の分類において、スペクトログラムに基づく表現は、呼吸周期の変動による時間次元の不整合に悩まされる。
異なる畳み込みニューラルネットワーク(CNN)アーキテクチャを用いて、2次元表現から特徴を抽出した。
呼吸周期に基づく評価と,複数の呼吸周期からなる被験者による評価により,モデル性能を評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study aims to explore the performance of the VAR model in comparison with mel-frequency cepstral coefficient (MFCC) matrices and log-mel spectrograms using deep learning. In pulmonary sound classification, spectrogram-based representations suffer from inconsistent temporal dimensions due to varying respiratory cycle durations. Along with traditional trimming/zero-padding, adaptive-length windowing was presented to fix their temporal dimensions. Their spectral and temporal dimensions were optimized by testing a range of parameters. Different convolutional neural network (CNN) architectures were employed to extract features from the two-dimensional representations obtained over the sub-phases. The extracted sub-phase features were then fused using various strategies including direct concatenation, gated recurrent unit (GRU) network and GRU with attention mechanism. Model performances were assessed through respiratory cycle-based evaluation and subject-based evaluation comprising multiple respiratory cycles. Several data augmentation techniques were also studied to cope with limitations in data size. The best cycle-based F1-score (0.877) was obtained using the MFCC matrices with thirteen coefficients and 64-point time resolution per sub-phase representation followed by direct feature concatenation, and the best subject-based F1-score (0.855) was obtained using the MFCC matrices with thirteen coefficients and 256-point time resolution per full-cycle representation, both obtained by adaptive-length windowing. Augmentation degraded the performance of models overall, yet mixup augmentation was the best among the methods tested. MFCC outperformed log-mel spectrogram and VAR model in differentiation of asthma and COPD. Sophisticated fusion strategies did not improve the diagnosis. Augmentation did not contribute, demonstrating the significance of authentic data in pulmonary sound studies.
- Abstract(参考訳): 本研究では,VARモデルの性能を,深層学習を用いたメル周波数ケプストラム係数(MFCC)および対数メル分光法と比較検討する。
肺の音の分類において、スペクトログラムに基づく表現は、呼吸周期の変動による時間次元の不整合に悩まされる。
従来のトリミング/ゼロパディングとともに、時間次元を固定するために適応長ウィンドウが提示された。
スペクトル次元と時間次元は、様々なパラメーターをテストすることで最適化された。
異なる畳み込みニューラルネットワーク(CNN)アーキテクチャを用いて、サブフェーズ上で得られた2次元表現から特徴を抽出した。
抽出したサブフェーズの特徴は, 直接結合, ゲートリカレントユニット(GRU)ネットワーク, 注意機構を備えたGRUなど, 様々な戦略を用いて融合した。
呼吸周期に基づく評価と,複数の呼吸周期からなる被験者による評価により,モデル性能を評価した。
データサイズの制限に対処するために、いくつかのデータ拡張技術も研究された。
The best cycle-based F1-score (0.877) were obtained using the MFCC matrices with 13 coefficients and 64-point time resolution per sub-phase representation followed by direct feature concatenation, and the best subject-based F1-score (0.855) were obtained with the MFCC matrices with 13 coefficients and 256-point time resolution per full-cycle representation。
拡張は全体としてモデルの性能を低下させたが、ミックスアップ拡張はテスト対象のメソッドの中では最高だった。
MFCCは喘息とPDの分化において対数メルスペクトログラムとVARモデルより優れていた。
高度融合戦略は診断を改善しなかった。
拡張は寄与せず、肺の音響研究における真正データの重要性を示した。
関連論文リスト
- Controllable Lung Nodule Synthesis via Histogram-Regularized Latent Diffusion Models [42.11515368961642]
拡散に基づく生成モデルは、データ合成に有望な戦略を提供する。
肺結節を全3次元CTボリュームで合成する制御可能な潜在拡散モデルを提案する。
このフレームワークは,定量的な測定値と視覚的チューリングテストの両方を通して,強力なビジュアルリアリズムを実現する。
論文 参考訳(メタデータ) (2026-05-28T22:32:06Z) - DiffNR: Diffusion-Enhanced Neural Representation Optimization for Sparse-View 3D Tomographic Reconstruction [42.4365911571903]
本稿では,拡散前のNR最適化を向上する新しいフレームワークであるDiffNRを提案する。
コアとなるSliceFixerは、分解したスライスのアーティファクトを修正するために設計された1ステップの拡散モデルである。
実験では、DiffNRはPSNRを平均3.99dB改善し、ドメイン間でよく一般化し、効率的な最適化を維持している。
論文 参考訳(メタデータ) (2026-04-23T10:27:54Z) - Investigation into respiratory sound classification for an imbalanced data set using hybrid LSTM-KAN architectures [0.0]
本研究では,階級不均衡の緩和に着目した呼吸音分類について検討した。
本稿では,Long Short-Term Memory (LSTM) ネットワークとKolmogorov-Arnold Network (KAN) を組み合わせたハイブリッドディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2026-01-07T05:37:57Z) - Explainable Multi-Modal Deep Learning for Automatic Detection of Lung Diseases from Respiratory Audio Signals [0.49581497240446293]
本研究では,呼吸音信号を用いた自動肺不全検出のためのマルチモーダル深層学習フレームワークを提案する。
このフレームワークにはGrad-CAM、Integrated Gradients、SHAPが含まれており、解釈可能なスペクトル、時間、特徴レベルの説明を生成する。
この結果は、遠隔医療、ポイント・オブ・ケアの診断、および実際の呼吸スクリーニングに対するフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2025-11-29T17:15:58Z) - CycleGuardian: A Framework for Automatic RespiratorySound classification Based on Improved Deep clustering and Contrastive Learning [9.215130010602634]
早期の呼吸器および肺疾患の診断において,聴診は重要な役割を担っている。
既存の最先端モデルは過剰なパラメータサイズに悩まされており、リソース制約のあるモバイルプラットフォームへのデプロイを妨げている。
改良されたディープクラスタリングとコントラスト学習に基づくフレームワークを提案する。
われわれはこのネットワークをAndroidデバイスに展開し、総合的なインテリジェントな呼吸音聴取システムを示す。
論文 参考訳(メタデータ) (2025-02-02T09:56:47Z) - Content-aware Balanced Spectrum Encoding in Masked Modeling for Time Series Classification [25.27495694566081]
マスクド・モデリング・スキームにおけるスペクトル空間の符号化品質を最適化する補助的コンテンツ認識バランスド・デコーダ(CBD)を提案する。
CBDは一連の基本ブロックを反復し、2つの調整されたユニットのおかげで、各ブロックは徐々にマスクされた表現を洗練させることができた。
論文 参考訳(メタデータ) (2024-12-17T14:12:20Z) - Diff-UNet: A Diffusion Embedded Network for Volumetric Segmentation [41.608617301275935]
医療用ボリュームセグメンテーションのための新しいエンドツーエンドフレームワークDiff-UNetを提案する。
提案手法では,拡散モデルを標準U字型アーキテクチャに統合し,入力ボリュームから意味情報を効率的に抽出する。
われわれは,MRI,肝腫瘍,多臓器CTの3種類の脳腫瘍について検討した。
論文 参考訳(メタデータ) (2023-03-18T04:06:18Z) - Improving Classification Model Performance on Chest X-Rays through Lung
Segmentation [63.45024974079371]
本稿では, セグメンテーションによる異常胸部X線(CXR)識別性能を向上させるための深層学習手法を提案する。
提案手法は,CXR画像中の肺領域を局所化するための深層ニューラルネットワーク(XLSor)と,大規模CXRデータセットで事前学習した自己教師あり運動量コントラスト(MoCo)モデルのバックボーンを用いたCXR分類モデルである。
論文 参考訳(メタデータ) (2022-02-22T15:24:06Z) - Multiple Time Series Fusion Based on LSTM An Application to CAP A Phase
Classification Using EEG [56.155331323304]
本研究では,深層学習に基づく脳波チャンネルの特徴レベル融合を行う。
チャネル選択,融合,分類手順を2つの最適化アルゴリズムで最適化した。
論文 参考訳(メタデータ) (2021-12-18T14:17:49Z) - CNN-MoE based framework for classification of respiratory anomalies and
lung disease detection [33.45087488971683]
本稿では,聴取分析のための頑健な深層学習フレームワークを提示し,検討する。
呼吸周期の異常を分類し、呼吸音の記録から病気を検出することを目的としている。
論文 参考訳(メタデータ) (2020-04-04T21:45:06Z) - Kullback-Leibler Divergence-Based Fuzzy $C$-Means Clustering
Incorporating Morphological Reconstruction and Wavelet Frames for Image
Segmentation [152.609322951917]
そこで我々は,厳密なウェーブレットフレーム変換と形態的再構成操作を組み込むことで,Kulback-Leibler (KL) 発散に基づくFuzzy C-Means (FCM) アルゴリズムを考案した。
提案アルゴリズムはよく機能し、他の比較アルゴリズムよりもセグメンテーション性能が優れている。
論文 参考訳(メタデータ) (2020-02-21T05:19:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。