論文の概要: LLM-Based Visual Explanation Evaluation Framework for Assessing the Explainability of Facial Skin Disease Classification Models
- arxiv url: http://arxiv.org/abs/2606.16794v1
- Date: Mon, 15 Jun 2026 14:37:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.622119
- Title: LLM-Based Visual Explanation Evaluation Framework for Assessing the Explainability of Facial Skin Disease Classification Models
- Title(参考訳): 顔面皮膚疾患分類モデルの説明可能性評価のためのLCMに基づく視覚的説明評価フレームワーク
- Authors: Gyuyeon Na,
- Abstract要約: 本研究では,顔面皮膚疾患診断モデルにおけるGrad-CAM説明の評価のための,ドメイン固有の視覚説明評価フレームワークを提案する。
評価の一貫性と臨床基盤を改善するため, プログレッシブ・プログレッシブ・エンジニアリング・ストラテジーを導入した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study proposes a domain-specific LLM-based Visual Explanation Evaluation Framework for assessing Grad-CAM explanations in facial skin disease diagnosis models. While previous studies have primarily focused on improving classification performance through data augmentation techniques, relatively few studies have systematically examined whether model explanations are grounded in clinically relevant lesion regions. In this study, geometric augmentation, color-based augmentation, and mixed augmentation strategies were applied to facial skin disease classification models based on EfficientNet-B0, MobileNetV3, and ResNet18. Grad-CAM was employed to generate visual explanations representing the models' decision-making processes. Furthermore, an LLM-as-a-Judge evaluation framework was designed using GPT-5.5, Gemini 3.5 Flash, and Claude Sonnet 4.6 to assess Grad-CAM explanations from the perspectives of lesion localization and explanation trustworthiness. To improve evaluation consistency and clinical grounding, a progressive prompt engineering strategy was introduced, incorporating evaluation rubrics, clinical knowledge, penalty rules, and structured output formats.
- Abstract(参考訳): 本研究では、顔面皮膚疾患診断モデルにおけるGrad-CAM説明の評価のためのドメイン固有のLCMに基づく視覚説明評価フレームワークを提案する。
従来の研究は主にデータ拡張技術による分類性能の向上に重点を置いてきたが,臨床関連病変領域においてモデル説明が根拠となっているかどうかを系統的に検討する研究は比較的少ない。
本研究では,EfficientNet-B0,MobileNetV3,ResNet18に基づく顔皮膚疾患分類モデルに,幾何学的拡張,色に基づく増色,混合化戦略を適用した。
Grad-CAMは、モデルの意思決定プロセスを表す視覚的な説明を生成するために使用された。
さらに、GPT-5.5、Gemini 3.5 Flash、Claude Sonnet 4.6を用いてLCM-as-a-Judge評価フレームワークを設計し、病変の局所化と説明信頼性の観点からGrad-CAMの説明を評価した。
評価一貫性と臨床基盤を改善するため, 評価ルーリック, 臨床知識, ペナルティルール, 構造化出力形式を取り入れた, プログレッシブ・プログレッシブ・プロンプト・エンジニアリング・ストラテジーを導入した。
関連論文リスト
- Multimodal Graph-based Classification of Esophageal Motility Disorders [73.90451172929117]
食道運動障害の診断は,高分解能インピーダンス測定データの複雑化と臨床解釈の多様性が原因で大きな課題となる。
本研究は,HRIM記録と患者固有の情報を組み合わせたマルチモーダル機械学習に基づく分類手法の実現可能性について検討し,食道生理学のグラフベースモデリングを取り入れた。
論文 参考訳(メタデータ) (2026-05-13T14:52:12Z) - Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs [63.535652574541764]
MLLM(Multimodal Large Language Models)は医用画像解析において顕著な可能性を示した。
消化器内視鏡におけるそれらの応用は、現在、2つの重要な限界によって妨げられている。
本稿では,これらの課題に対処する新しい臨床認知アライメント(CogAlign)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-21T07:47:37Z) - Proof of Concept for Mammography Classification with Enhanced Compactness and Separability Modules [0.0]
本研究では,最近の医用画像分類手法の検証と拡張について述べる。
Inbreast、MIAS、InceptionMのマンモグラフィコレクションを統合したKaggleデータセットを使用して、ベースラインのCNN、ConvNeXt Tiny、InceptionV3のバックボーンをGAGMとSEモジュールで強化したものだ。
その結果, GAGMとSEが特徴識別性を高め, 偽陰性を低下させる効果が確認された。
しかし,本実験では,マンモグラフィの分類条件下において,特徴平滑化損失は測定不可能な改善を得られなかった。
論文 参考訳(メタデータ) (2025-12-06T21:36:05Z) - From Classification to Cross-Modal Understanding: Leveraging Vision-Language Models for Fine-Grained Renal Pathology [9.268389327736735]
臨床的に現実的な数ショット問題として,細粒度糸球体サブタイプをモデル化した。
この条件下では、病理特化モデルと汎用視覚言語モデルの両方を評価する。
論文 参考訳(メタデータ) (2025-11-15T01:44:11Z) - The Skin Game: Revolutionizing Standards for AI Dermatology Model Comparison [0.6144680854063939]
皮膚画像分類における深層学習アプローチは有望な結果を示しているが、適切な評価を妨げる重要な方法論的課題に直面している。
本稿では、皮膚疾患分類研究における現在の方法論の体系的分析を行い、データ準備、強化戦略、パフォーマンス報告におけるかなりの不整合を明らかにした。
本稿では、厳密なデータ準備、系統的誤り解析、異なる画像タイプのための特別なプロトコルを強調し、モデル開発、評価、臨床展開のための包括的な方法論的勧告を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:15:36Z) - Methodological Explainability Evaluation of an Interpretable Deep Learning Model for Post-Hepatectomy Liver Failure Prediction Incorporating Counterfactual Explanations and Layerwise Relevance Propagation: A Prospective In Silico Trial [13.171582596404313]
術前PHLF予測のための可変オートエンコーダ-多層パーセプトロン (VAE-MLP) モデルを開発した。
このモデルは、その意思決定メカニズムに関する洞察を提供するために、カウンターファクトアルとレイヤワイズ関連伝播(LRP)を統合した。
サイリコ臨床試験の3トラックの結果、AIの説明が提供されると、臨床医の予測精度と信頼性が向上した。
論文 参考訳(メタデータ) (2024-08-07T13:47:32Z) - SkinGEN: an Explainable Dermatology Diagnosis-to-Generation Framework with Interactive Vision-Language Models [54.32264601568605]
SkinGENは、VLMが提供する診断結果から参照デモを生成する、診断から生成までのフレームワークである。
システム性能と説明可能性の両方を評価するために,32人の参加者によるユーザスタディを実施している。
その結果、SkinGENはVLM予測に対するユーザの理解を著しく改善し、診断プロセスへの信頼を高めることが示されている。
論文 参考訳(メタデータ) (2024-04-23T05:36:33Z) - Fairness Evolution in Continual Learning for Medical Imaging [47.52603262576663]
本研究では、ドメイン固有の公平度指標を用いてタスク間でバイアスがどのように進化し、異なるCL戦略がこの進化にどのように影響するかを検討する。
以上の結果から,擬似ラベルと擬似ラベルの学習は最適分類性能を実現するが,擬似ラベルの偏りは小さいことが示唆された。
論文 参考訳(メタデータ) (2024-04-10T09:48:52Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Histopathologic Cancer Detection [0.0]
この作業では、PatchCamelyonベンチマークデータセットを使用して、モデルをマルチレイヤのパーセプトロンと畳み込みモデルでトレーニングし、精度の高いリコール、F1スコア、精度、AUCスコアでモデルのパフォーマンスを観察する。
また,データ拡張を伴うResNet50とInceptionNetモデルを導入し,ResNet50が最先端モデルに勝てることを示す。
論文 参考訳(メタデータ) (2023-11-13T19:51:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。