論文の概要: Physiology-Aware CNN and Zero-Shot Multimodal LLMs for ECG Image Classification: A Comparative Study
- arxiv url: http://arxiv.org/abs/2606.22889v1
- Date: Mon, 22 Jun 2026 05:59:10 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-24 20:32:08.976748
- Title: Physiology-Aware CNN and Zero-Shot Multimodal LLMs for ECG Image Classification: A Comparative Study
- Title(参考訳): ECG画像分類のための生理学的CNNとZero-Shot Multimodal LLM : 比較検討
- Authors: Khalil Ahammad, Derek Abbott, Mohsen Dorraki,
- Abstract要約: マルチモーダルな大言語モデル(LLM)は、12リードのECG画像の解釈にますます採用されている。
本研究は, ゼロショット多モードLCMが正常心電図像と異常心電図像とを確実に識別できるかどうかを検討した。
- 参考スコア(独自算出の注目度): 1.6918354618189373
- License:
- Abstract: Multimodal large language models (LLMs) are increasingly adopted to interpret 12-lead ECG images, though the interpretations often lack validation. However, ECG image understanding significantly differs from general images as it depends on precise waveform morphology, lead relationships and accurate interval measurements. This study investigated whether zero-shot multimodal LLMs can reliably distinguish normal and abnormal ECG images and, in parallel, evaluated CNN-based models for clinically grounded references. Standard 12-lead ECG recordings were rendered as single-page images for a binary normal-abnormal classification task. Three prominent LLMs (GPT-5.2, GPT-4.1, and Gemini-2.5 Pro) were tested using a fixed zero-shot prompt across multiple runs. In parallel, a physiology-aware CNN-based model was developed with the capability to aggregate features from the predefined anatomical lead groups. The model was compared with ResNet18, DenseNet121, VGG16 baselines, and all the models were evaluated on an internal test set and external PTB-XL dataset. Across seeds, CNN-based models demonstrated stable discrimination, with average internal ROC-AUC of 0.92-0.94, and external ROC-AUC of 0.85-0.86. The proposed LeadGroupECG model significantly improved over its backbone internally without compromising external generalization. It remained competitive with other baselines, while consistently highlighting anatomical lead-group contributions. In contrast, zero-shot LLM discrimination remained near-chance (ROC-AUC around 0.5). The PR-AUC improved slightly when ECGs used a grid-based calibration background compared with the grid-free ECGs. Although multimodal LLMs can generate reasonable ECG narratives, their zero-shot diagnostic discrimination remains limited. Therefore, clinically framed, domain-specific architectures remain essential for AI-based ECG interpretation.
- Abstract(参考訳): マルチモーダル大言語モデル (LLM) は12リードのECG画像の解釈に採用されているが、その解釈は検証に欠けることが多い。
しかし、ECG画像の理解は、正確な波形形態、鉛関係、正確な間隔測定に依存するため、一般的な画像と大きく異なる。
本研究は, ゼロショットマルチモーダルLCMが正常心電図像と異常心電図像とを確実に識別し, 同時にCNNを用いた臨床応用基準モデルの評価を行った。
標準12誘導ECG記録は,2値正規分布分類タスクのための単ページ画像として描画された。
3つの著名なLCM(GPT-5.2、GPT-4.1、Gemini-2.5 Pro)は複数のランで固定されたゼロショットプロンプトを使用して試験された。
同時に, 既定義の解剖学的鉛グループの特徴を集約する機能を備えた生理的CNNモデルを開発した。
モデルはResNet18、DenseNet121、VGG16ベースラインと比較され、全てのモデルは内部テストセットと外部TB-XLデータセットで評価された。
種全体で、CNNベースのモデルは安定した識別を示し、内部のOC-AUCは0.92-0.94、外部のOC-AUCは0.85-0.86であった。
提案したLeadGroupECGモデルは,外部一般化を損なうことなく,バックボーンを内部的に大幅に改善した。
他のベースラインと競合する一方で、解剖学的鉛グループへの貢献も一貫して強調した。
対照的に、ゼロショットLDMの識別は、近距離 (ROC-AUC around 0.5) のままであった。
PR-AUCは、ECGがグリッドフリーのECGに比べてグリッドベースのキャリブレーション背景を使用した場合、わずかに改善された。
マルチモーダルLLMは妥当なECG物語を生成することができるが、そのゼロショット識別は限定的である。
したがって、AIベースのECG解釈には、臨床的にフレーム化されたドメイン固有のアーキテクチャが不可欠である。
関連論文リスト
- Domain-Adapted Fine-Tuning of ECG Foundation Models for Multi-Label Structural Heart Disease Screening [9.031528782284935]
心電図(ECG)基礎モデルがエコー確認型多ラベル心疾患検出をサポートできるかどうかを検討した。
我々は,ECGの工学的特徴と,勾配向上,スクラッチからのエンドツーエンドの波形学習,オープンECG基盤モデルからの転送を比較した。
適応型ECG-FMモデルは全体的な性能を最高のものにした。
論文 参考訳(メタデータ) (2026-04-25T17:27:42Z) - ECG-IMN: Interpretable Mesomorphic Neural Networks for 12-Lead Electrocardiogram Interpretation [1.7152890789230053]
深層学習は心電図(ECG)の診断において専門家レベルのパフォーマンスを達成したが、これらのモデルの「黒い箱」の性質は臨床展開を妨げている。
本稿では,高分解能12リードECG分類に適した解釈可能なメソモルフィックニューラルネットワークECG-IMNを提案する。
論文 参考訳(メタデータ) (2026-02-10T09:17:29Z) - Masked Training for Robust Arrhythmia Detection from Digitalized Multiple Layout ECG Images [15.710783507780903]
この研究は適応的可変ブロック数欠落表現学習のためのフレームワークであるPatchECGを導入した。
PatchECGは、リード間の協調依存関係を持つキーパッチに自動的にフォーカスし、異なるレイアウトのECGにおける不整脈をキー認識する。
論文 参考訳(メタデータ) (2025-08-06T07:55:05Z) - Global and Local Contrastive Learning for Joint Representations from Cardiac MRI and ECG [40.407824759778784]
PTACL(Patient and Temporal Alignment Contrastive Learning)は、CMRからの時間情報を統合することで、ECG表現を強化するマルチモーダルコントラスト学習フレームワークである。
英国バイオバンクの被験者27,951名を対象に,ペア心電図-CMRデータを用いたPTACLの評価を行った。
心電図を用いた非侵襲的心臓診断におけるPTACLの有用性について検討した。
論文 参考訳(メタデータ) (2025-06-24T17:19:39Z) - GEM: Empowering MLLM for Grounded ECG Understanding with Time Series and Images [44.50428701650495]
GEMは,第1回MLLM統合ECG時系列,第12回リードECG画像,地上および臨床のECG解釈のためのテキストである。
GEMは、3つのコアイノベーションを通じて機能的解析、エビデンス駆動推論、および臨床医のような診断プロセスを可能にする。
基礎心電図理解におけるMLLMの能力を評価するために,臨床動機付けのベンチマークであるグラウンドドECGタスクを提案する。
論文 参考訳(メタデータ) (2025-03-08T05:48:53Z) - TotalSegmentator MRI: Robust Sequence-independent Segmentation of Multiple Anatomic Structures in MRI [59.86827659781022]
nnU-Netモデル(TotalSegmentator)をMRIおよび80原子構造で訓練した。
予測されたセグメンテーションと専門家基準セグメンテーションとの間には,ディススコアが算出され,モデル性能が評価された。
オープンソースで使いやすいモデルは、80構造の自動的で堅牢なセグメンテーションを可能にする。
論文 参考訳(メタデータ) (2024-05-29T20:15:54Z) - ECG-SMART-NET: A Deep Learning Architecture for Precise ECG Diagnosis of Occlusion Myocardial Infarction [1.7894680263068135]
OMI症例の3分の2は、12誘導心電図から視覚的に識別することが困難である。
現在の最先端の証拠は、機能ベースのランダムな森林と畳み込みニューラルネットワーク(CNN)の両方が、OMIのECG検出を改善するための有望なアプローチであることを示唆している。
我々はOMI識別のためのECG--NETを開発し評価する。
論文 参考訳(メタデータ) (2024-05-08T19:59:16Z) - A Two-Stage Generative Model with CycleGAN and Joint Diffusion for
MRI-based Brain Tumor Detection [41.454028276986946]
本稿では,脳腫瘍の検出とセグメンテーションを改善するための2段階生成モデル(TSGM)を提案する。
CycleGANは、未ペアデータに基づいてトレーニングされ、データとして正常な画像から異常な画像を生成する。
VE-JPは、合成対の異常画像をガイドとして使用して、健康な画像の再構成を行う。
論文 参考訳(メタデータ) (2023-11-06T12:58:26Z) - Synthetic ECG Signal Generation Using Generative Neural Networks [7.122393663641668]
本研究は,GAN(Generative Adversarial Network)ファミリーから5つの異なるモデルの合成ECG生成能力について検討した。
以上の結果から, 全ての実験モデルにおいて, 形態学的特徴に高い類似性を有する許容心拍の大量生成に成功できることが示唆された。
論文 参考訳(メタデータ) (2021-12-05T20:28:55Z) - Generalizing electrocardiogram delineation: training convolutional
neural networks with synthetic data augmentation [63.51064808536065]
ECGのデライン化のための既存のデータベースは小さく、サイズやそれらが表す病態の配列に不足している。
まず、原データベースから抽出した基本セグメントのプールを与えられたECGトレースを確率的に合成し、その整合性のある合成トレースに配置するための一連のルールを考案した。
第二に、2つの新しいセグメンテーションに基づく損失関数が開発され、これは、正確な数の独立構造の予測を強制し、サンプル数の削減に焦点をあてて、より密接なセグメンテーション境界を創出することを目的としている。
論文 参考訳(メタデータ) (2021-11-25T10:11:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。