論文の概要: CheXpercept: A Benchmark for Evaluating Expert-Level Lesion Perception in Chest X-rays
- arxiv url: http://arxiv.org/abs/2606.21020v1
- Date: Fri, 19 Jun 2026 01:10:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 08:58:24.119256
- Title: CheXpercept: A Benchmark for Evaluating Expert-Level Lesion Perception in Chest X-rays
- Title(参考訳): CheXpercept: 胸部X線におけるエキスパートレベル病変知覚の評価ベンチマーク
- Authors: Geon Choi, Hangyul Yoon, Nalee Kim, Jeong Yun Jang, Hyunju Shin, Hyunki Park, Sang Hoon Seo, Edward Choi,
- Abstract要約: CheXperceptは、胸部X線分析のためのシーケンシャルなマルチレベル知覚ベンチマークである。
これは、粗いレベルの検出、きめ細かい輪郭の評価と修正、意味レベルの属性抽出にまたがる放射線学者の認知ワークフローを反映している。
CheXperceptは2,100個のCXRから抽出された10,400個のQA項目を含み、7つの臨床的に重要な肺と心臓の病変をカバーしている。
- 参考スコア(独自算出の注目度): 13.566972599173084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evaluation of vision-language models (VLMs) for chest X-ray (CXR) analysis has largely been limited to disease-presence classification without visual grounding. Such evaluations fail to verify the expert-level lesion perception necessary to ensure the clinical reliability of VLMs. To address these limitations, we introduce CheXpercept, a sequential, multi-level perception benchmark that mirrors a radiologist's cognitive workflow across coarse-level detection, fine-level contour evaluation and revision, and semantic-level attribute extraction. To ensure high clinical fidelity at scale, we construct the dataset using a semi-automated generation pipeline paired with a review by six medical experts. CheXpercept contains 10,400 QA items derived from 2,100 CXRs, covering seven clinically critical pulmonary and cardiac lesions. To demonstrate the current landscape of VLM perception, we benchmark 14 general and medical VLMs on CheXpercept. The models achieve adequate performance only at the coarse level, with accuracy degrading precipitously on deeper visual tasks. Notably, medical VLMs show almost no perceptual advantage over their general-domain counterparts, highlighting a systemic flaw in current domain adaptation. The code and dataset will be publicly available.
- Abstract(参考訳): 胸部X線(CXR)解析のための視覚言語モデル(VLM)の評価は,視覚的根拠のない疾患存在分類に限られている。
このような評価は、VLMの臨床的信頼性を確保するために必要な専門家レベルの病変知覚を検証するのに失敗する。
これらの制限に対処するため、我々はCheXperceptというシーケンシャルなマルチレベル認識ベンチマークを導入し、粗いレベルの検出、きめ細かい輪郭評価とリビジョン、意味レベルの属性抽出にまたがって、放射線学者の認知ワークフローを反映する。
6人の医療専門家によるレビューと組み合わせた半自動生成パイプラインを用いて,大規模に高い臨床忠実度を確保するためにデータセットを構築した。
CheXperceptは2,100個のCXRから抽出された10,400個のQA項目を含み、7つの臨床的に重要な肺と心臓の病変をカバーしている。
現在のVLM知覚の状況を示すため、14の一般的な医療用VLMをCheXpercept上でベンチマークする。
モデルは粗いレベルでのみ十分な性能を達成し、より深い視覚的タスクに基づいて精度を劣化させる。
特に、医療用VLMは一般的なドメインに比べてほとんど知覚上の優位性を示しておらず、現在のドメイン適応におけるシステム的欠陥を強調している。
コードとデータセットが公開される。
関連論文リスト
- Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs [63.535652574541764]
MLLM(Multimodal Large Language Models)は医用画像解析において顕著な可能性を示した。
消化器内視鏡におけるそれらの応用は、現在、2つの重要な限界によって妨げられている。
本稿では,これらの課題に対処する新しい臨床認知アライメント(CogAlign)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-21T07:47:37Z) - Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。
提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。
本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文 参考訳(メタデータ) (2026-02-27T04:49:01Z) - Multi-View Stenosis Classification Leveraging Transformer-Based Multiple-Instance Learning Using Real-World Clinical Data [76.89269238957593]
冠動脈狭窄は心血管疾患の主要な原因であり,多発血管造影で冠動脈を解析し診断した。
患者レベルの狭窄分類のためのトランスフォーマーベースマルチビューマルチインスタンス学習フレームワークであるSegmentMILを提案する。
論文 参考訳(メタデータ) (2026-02-02T13:07:52Z) - Measuring and Aligning Abstraction in Vision-Language Models with Medical Taxonomies [9.399546516030757]
Vision-Language Modelsは胸部X線分類において強いゼロショット性能を示すが、標準的なフラットメトリクスは臨床的にマイナーなエラーと重度のエラーを区別することができない。
階層的メトリクスを用いていくつかの最先端のVLMをベンチマークし、クロスブランチミスを捉えるために破滅的抽象化エラーを導入します。
論文 参考訳(メタデータ) (2026-01-21T09:58:50Z) - A DeepSeek-Powered AI System for Automated Chest Radiograph Interpretation in Clinical Practice [83.11942224668127]
Janus-Pro-CXR (1B) はDeepSeek Janus-Proモデルに基づく胸部X線解釈システムである。
本システムは, 自動レポート生成において, 最先端のX線レポート生成モデルより優れる。
論文 参考訳(メタデータ) (2025-12-23T13:26:13Z) - XBench: A Comprehensive Benchmark for Visual-Language Explanations in Chest Radiography [6.447908430647854]
胸部X線におけるクロスモーダル解釈性を評価するための最初の体系的ベンチマークを示す。
我々は,クロスアテンションと類似性に基づくローカライズマップを用いた視覚的説明を生成する。
複数の病理組織を横断する放射線診断領域とのアライメントを定量的に評価した。
論文 参考訳(メタデータ) (2025-10-22T13:52:19Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Chest X-ray Foundation Model with Global and Local Representations Integration [13.736829173377355]
CheXFoundは、堅牢なCXR表現を学び、幅広い下流タスクを効果的に一般化するビジョン基盤モデルである。
我々はCheXFoundをキュレートしたCXR-1Mデータセットで事前訓練し、公開ソースから100万以上のユニークなCXRを作成した。
以上の結果から,CheXFoundは有病率の異なる40の疾患の分類において,最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2025-02-07T18:16:15Z) - A Vision-Language Foundation Model to Enhance Efficiency of Chest X-ray Interpretation [22.8169684575764]
初期診断試験としての費用効果のため、毎年14億個の胸部X線(CXR)が実施されている。
この規模の放射線学研究は、CXRの解釈と文書を合理化する重要な機会を提供する。
我々は、視覚言語基礎モデル(CheXagent)をトレーニングするために、大規模データセット(CheXinstruct)を構築した。
論文 参考訳(メタデータ) (2024-01-22T18:51:07Z) - Improving Classification Model Performance on Chest X-Rays through Lung
Segmentation [63.45024974079371]
本稿では, セグメンテーションによる異常胸部X線(CXR)識別性能を向上させるための深層学習手法を提案する。
提案手法は,CXR画像中の肺領域を局所化するための深層ニューラルネットワーク(XLSor)と,大規模CXRデータセットで事前学習した自己教師あり運動量コントラスト(MoCo)モデルのバックボーンを用いたCXR分類モデルである。
論文 参考訳(メタデータ) (2022-02-22T15:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。