論文の概要: HSQ-VLM: A Novel Spatially-Constrained Quadrant Segmentation VLM Model for Explainability in Diabetic Retinopathy
- arxiv url: http://arxiv.org/abs/2606.14803v1
- Date: Thu, 11 Jun 2026 19:02:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.242346
- Title: HSQ-VLM: A Novel Spatially-Constrained Quadrant Segmentation VLM Model for Explainability in Diabetic Retinopathy
- Title(参考訳): HSQ-VLM : 糖尿病網膜症における説明可能性のための新しい空間拘束型クアドラントセグメンテーションVLMモデル
- Authors: Shivum Telang,
- Abstract要約: 本稿では,基礎画像上の新しい分節分割パイプラインであるHSQ-VLMを提案する。
任意のイメージパーティショニングに依存する従来の方法とは異なり、パイプラインは4つのクアドラントなトポロジカルレイトパーティショニングを実装しています。
これによりビジョン・ランゲージ・モデル(Vision-Language Model)は、病理を解剖学的精度で定量化する自然言語レポートを生成することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diabetic Retinopathy (DR) is an aggressive retinal disease and a leading cause of global blindness, yet its clinical management is currently hindered by the black-box nature of diagnostic AI. While deep learning models achieve high classification accuracy, there is a critical lack of explainability methods capable of detailing the exact anatomical landmarks and lesion distributions that lead to a clinical decision for DR. Therefore, we propose HSQ-VLM, a novel quadrant segmentation pipeline on fundus images that utilizes a Landmark-Anchored Cartesian Cross-Attention mechanism to unify visual feature extraction with structured clinical reasoning. Unlike traditional methods that rely on arbitrary image partitioning, our pipeline implements 4-quadrant Topological Latent Partitioning (TLP) to dynamically align retinal features with a fovea-centered coordinate system. This allows the Vision-Language Model to generate natural language reports that quantify pathology with anatomical precision. On a dataset of 3,500 high-resolution fundus images, this innovative methodology achieved a lesion detection sensitivity of 99.6% for hemorrhages and 96.4% for microaneurysms, while demonstrating a significant reduction in boundary-ambiguity errors compared to standard segmentation baselines.
- Abstract(参考訳): 糖尿病網膜症(DR)はアグレッシブな網膜疾患であり、世界的な盲目の原因となっているが、その臨床管理は診断AIのブラックボックスの性質によって妨げられている。
深層学習モデルは高い分類精度を実現する一方で、DRの正確な解剖学的特徴や病変の分布を詳細に記述できる説明可能性の欠如が指摘されている。そのため、ランドマーク・アンコール・カルテアン・クロス・アテンション機構を応用し、構造的臨床推論による視覚的特徴抽出を統一する、新しい四分法パイプラインであるHSQ-VLMを提案する。
任意の画像分割に依存する従来の方法とは異なり、我々のパイプラインは4つのクアドラントなトポロジカルレイト・パーティショニング(TLP)を実装し、網膜の特徴をフォベア中心の座標系で動的に調整する。
これによりビジョン・ランゲージ・モデル(Vision-Language Model)は、病理を解剖学的精度で定量化する自然言語レポートを生成することができる。
3500枚の高解像度の眼底画像のデータセットにおいて、この革新的な手法は、出血の99.6%、微小動脈瘤の96.4%の病変検出感度を達成した。
関連論文リスト
- Towards Clinically Interpretable Ophthalmic VQA via Spatially-Grounded Lesion Evidence [51.57735743553791]
今回我々はFundusGroundを紹介した。これは臨床的に解釈可能な眼科用VQAの空間的根拠を用いた新しいベンチマークである。
この構造された病変の証拠に基づいて、72,706の質問が4つのフォーマットにまたがって生成される。
実験により、病変レベルの視覚的エビデンスを組み込むことで、モデルの性能と透明性が一貫して向上することが示された。
論文 参考訳(メタデータ) (2026-05-21T12:37:03Z) - Semantic-Topological Graph Reasoning for Language-Guided Pulmonary Screening [9.742485458627343]
本稿では,言語誘導肺検診のためのセマンティック・トポロジカルグラフ推論フレームワークを提案する。
我々のアプローチは、視覚基盤モデルのゼロショットデライン化により、大規模言語モデルの推論能力をエレガントに相乗化します。
LIDC-IDRIでは81.5%のDice similarity Coefficient(DSC)を達成し、LISAのようなLLMベースのツールを5%以上上回っている。
論文 参考訳(メタデータ) (2026-04-07T09:20:55Z) - An Explainable Vision-Language Model Framework with Adaptive PID-Tversky Loss for Lumbar Spinal Stenosis Diagnosis [1.2871968485402088]
既存の視覚言語モデルは、臨床セグメント化データセットでよく見られる極端なクラス不均衡に対処できない。
本稿では、これらの制限を克服するために、エンドツーエンドの説明可能な視覚言語モデルフレームワークを提案する。
診断精度は90.69%,マクロ平均Diceスコアは0.9512,CIDErスコアは92.80%であった。
論文 参考訳(メタデータ) (2026-04-02T20:18:35Z) - Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs [63.535652574541764]
MLLM(Multimodal Large Language Models)は医用画像解析において顕著な可能性を示した。
消化器内視鏡におけるそれらの応用は、現在、2つの重要な限界によって妨げられている。
本稿では,これらの課題に対処する新しい臨床認知アライメント(CogAlign)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-21T07:47:37Z) - Multi-View Stenosis Classification Leveraging Transformer-Based Multiple-Instance Learning Using Real-World Clinical Data [76.89269238957593]
冠動脈狭窄は心血管疾患の主要な原因であり,多発血管造影で冠動脈を解析し診断した。
患者レベルの狭窄分類のためのトランスフォーマーベースマルチビューマルチインスタンス学習フレームワークであるSegmentMILを提案する。
論文 参考訳(メタデータ) (2026-02-02T13:07:52Z) - Quadrant Segmentation VLM with Few-Shot Adaptation and OCT Learning-based Explainability Methods for Diabetic Retinopathy [0.0]
糖尿病網膜症(DR: Diabetic Retinopathy)は、視覚障害の主要な原因であり、視力を維持するために早期発見が必要である。
現在のAIモデルは、病変のセグメンテーションを解釈可能性に利用しているが、手動による病変の注釈付けは、臨床医にとって実用的ではない。
本稿では,眼科医の推論を模倣したVLMを用いた新しいマルチモーダル説明可能性モデルを提案する。
論文 参考訳(メタデータ) (2025-12-20T17:45:33Z) - A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。
CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。
本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文 参考訳(メタデータ) (2025-12-15T10:22:43Z) - Diagnosis Of Takotsubo Syndrome By Robust Feature Selection From The
Complex Latent Space Of DL-based Segmentation Network [4.583480375083946]
医学における分類モデルやセグメンテーションモデルを用いて、潜伏した特徴を学習し、堅牢な特徴選択をオプトアウトし、過度な適合につながる可能性がある。
本稿では,診断を支援するセグメンテーションモデルの潜在空間を用いた特徴選択手法を提案する。
診断精度82%が従来のSOTA (State-of-the-art) を上回り, 心疾患の鑑別診断に有用であった。
論文 参考訳(メタデータ) (2023-12-19T22:53:32Z) - Assessing glaucoma in retinal fundus photographs using Deep Feature
Consistent Variational Autoencoders [63.391402501241195]
緑内障は症状が重くなるまで無症状のままでいるため、検出が困難である。
緑内障の早期診断は機能的,構造的,臨床的評価に基づいて行われることが多い。
ディープラーニング手法はこのジレンマを、マーカー識別段階をバイパスし、ハイレベルな情報を分析してデータを分類することで部分的に解決している。
論文 参考訳(メタデータ) (2021-10-04T16:06:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。