論文の概要: IViT: A Novel Interpretable Visual Transformer for Skin Disease Detection
- arxiv url: http://arxiv.org/abs/2606.22892v1
- Date: Mon, 22 Jun 2026 06:06:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 03:50:08.765873
- Title: IViT: A Novel Interpretable Visual Transformer for Skin Disease Detection
- Title(参考訳): IViT:皮膚疾患検出のための新しい解釈可能な視覚変換器
- Authors: Haibiao Li, Di Lin, Xue Jiang, Weiwei Wu, Yanxi Li, Yugang Chi,
- Abstract要約: 本稿では,準計画法(QP)に制約された解釈可能な ViT (IViT) を提案する。
IViTの精度は93.80%で、ベースラインよりも0.21%低く、特徴冗長性は29.5%減少している。
提案モデルは精度と解釈可能性のバランスを保ち、数発のインテリジェントな皮膚疾患診断を臨床展開するための信頼性の高い解決策を提供する。
- 参考スコア(独自算出の注目度): 20.542391843412098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The clinical diagnosis of skin diseases is susceptible to interference from inter-class similarity of skin lesions, and over-reliance on clinicians'experience easily leads to subjective bias. Although existing deep learning aided diagnosis methods achieve competitive accuracy, they suffer from the black-box opacity of Vision Transformer (ViT) and poor adaptability to medical few-shot scenarios. Moreover, mainstream explainable algorithms generally face the bottleneck of significant accuracy degradation when improving interpretability. This paper proposes an interpretable ViT (IViT) constrained by Quadratic Programming (QP). The introduced pre-trained transfer learning adapts to few-shot feature extraction. A discrete QP feature selection framework is constructed to screen generic and discriminative features consistent with clinical diagnostic logic. A multi-objective loss function is designed to reduce feature redundancy and optimize activation distribution while preserving classification performance. Experimental results on six standard skin disease datasets show that IViT achieves an accuracy of 93.80%, only 0.21% lower than the baseline, with feature redundancy reduced by 29.5%. Its core activation regions are consistent with clinically concerned lesion areas. The proposed model balances accuracy and interpretability, providing a reliable solution for the clinical deployment of few-shot intelligent skin disease diagnosis.
- Abstract(参考訳): 皮膚疾患の診断は、皮膚病変のクラス間類似性による干渉の影響を受けやすく、臨床医の経験への過度な依存は、容易に主観的偏見につながる。
既存のディープラーニングが診断手法の精度向上に役立っているが、ViT(Vision Transformer)のブラックボックス不透明さと、医療的少数ショットシナリオへの適応性の低下に悩まされている。
さらに、主流となる説明可能なアルゴリズムは、解釈可能性を改善する際に、大きな精度低下のボトルネックに直面している。
本稿では,準計画法 (QP) に制約された解釈可能な ViT (IViT) を提案する。
導入された事前学習は、少数ショットの特徴抽出に適応する。
個別QP特徴選択フレームワークを構築し、臨床診断論理に整合した総合的特徴と識別的特徴をスクリーニングする。
多目的損失関数は、特徴冗長性を低減し、分類性能を維持しながら活性化分布を最適化するように設計されている。
6つの標準皮膚疾患データセットによる実験結果から、IViTは93.80%の精度でベースラインよりも0.21%低く、特徴冗長性は29.5%低下した。
コア活性化領域は臨床的に関係のある病変領域と一致している。
提案モデルは精度と解釈可能性のバランスを保ち、数発のインテリジェントな皮膚疾患診断を臨床展開するための信頼性の高い解決策を提供する。
関連論文リスト
- An Explainable Vision-Language Model Framework with Adaptive PID-Tversky Loss for Lumbar Spinal Stenosis Diagnosis [1.2871968485402088]
既存の視覚言語モデルは、臨床セグメント化データセットでよく見られる極端なクラス不均衡に対処できない。
本稿では、これらの制限を克服するために、エンドツーエンドの説明可能な視覚言語モデルフレームワークを提案する。
診断精度は90.69%,マクロ平均Diceスコアは0.9512,CIDErスコアは92.80%であった。
論文 参考訳(メタデータ) (2026-04-02T20:18:35Z) - Retinal Disease Classification from Fundus Images using CNN Transfer Learning [0.0]
我々は、ベースライン畳み込みニューラルネットワークと、事前訓練されたVGG16バックボーンを用いたトランスファーラーニングアプローチを実装し、比較する。
VGG16転送学習モデルは、重み付きF1スコアの0.90で90.8%のテスト精度を達成し、ベースラインCNNを大幅に上回っている。
論文 参考訳(メタデータ) (2026-03-24T23:40:48Z) - One-shot synthesis of rare gastrointestinal lesions improves diagnostic accuracy and clinical training [45.49415063761575]
EndoRareは、単一の参照画像から多種多様な高忠実度病変を合成する、ワンショットでリトレーニング不要な生成フレームワークである。
われわれはこの枠組みを4つの稀な病理から検証した。
これらの結果は, コンピュータ支援診断と臨床教育の両方において, 希少なギャップを埋める実践的でデータ効率のよい方法を確立している。
論文 参考訳(メタデータ) (2025-12-30T15:07:09Z) - Ocular-Induced Abnormal Head Posture: Diagnosis and Missing Data Imputation [1.7061463565692456]
AHP(Acular-induced abnormal head posture)は、眼疾患から生じる補充機構である。
本研究では,2つの相補的なディープラーニングフレームワークを通じて,両課題に対処する。
AHP-CADNetは自動診断のための多層注意融合フレームワークである。
カリキュラムベースの計算フレームワークは、欠落したデータを緩和するために設計されている。
論文 参考訳(メタデータ) (2025-10-07T07:51:59Z) - Towards Accurate and Interpretable Neuroblastoma Diagnosis via Contrastive Multi-scale Pathological Image Analysis [16.268045905735818]
病理画像分類に適したコントラスト学習に基づくマルチスケール機能融合モデルであるCMSwinKANを提案する。
マルチスケールの特徴を融合させ、対照的な学習戦略を活用することで、CMSwinKANは臨床医の包括的なアプローチを模倣する。
その結果、CMSwinKANは、既存の最先端の病理モデルよりも、大規模なデータセットで事前訓練されたモデルよりもパフォーマンスがよいことが示された。
論文 参考訳(メタデータ) (2025-04-18T15:39:46Z) - Optimizing Skin Lesion Classification via Multimodal Data and Auxiliary
Task Integration [54.76511683427566]
本研究は, スマートフォンで撮影した画像と本質的な臨床および人口統計情報を統合することで, 皮膚病変を分類する新しいマルチモーダル手法を提案する。
この手法の特徴は、超高解像度画像予測に焦点を当てた補助的なタスクの統合である。
PAD-UFES20データセットを用いて,様々なディープラーニングアーキテクチャを用いて実験を行った。
論文 参考訳(メタデータ) (2024-02-16T05:16:20Z) - Evaluating Echo State Network for Parkinson's Disease Prediction using
Voice Features [1.2289361708127877]
本研究の目的は,偽陰性の最小化と高精度化を両立できる診断モデルを開発することである。
Echo State Networks (ESN)、Random Forest、k-nearest Neighbors、Support Vector、Extreme Gradient Boosting、Decision Treeなど、さまざまな機械学習手法が採用され、徹底的に評価されている。
ESNは83%の症例で8%未満の偽陰性率を維持している。
論文 参考訳(メタデータ) (2024-01-28T14:39:43Z) - Achieving Reliable and Fair Skin Lesion Diagnosis via Unsupervised Domain Adaptation [43.1078084014722]
教師なしドメイン適応(UDA)は、信頼性の高い分類器を開発するために、大きな外部データセットを統合することができる。
UDAは少数派に対する偏見を効果的に軽減し、診断システムの公平性を高めることができる。
論文 参考訳(メタデータ) (2023-07-06T17:32:38Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。