論文の概要: BenchX: Benchmarking AI Models for Cancer Detection and Localization with Demographic and Protocol Biases
- arxiv url: http://arxiv.org/abs/2606.24883v1
- Date: Tue, 23 Jun 2026 17:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.137054
- Title: BenchX: Benchmarking AI Models for Cancer Detection and Localization with Demographic and Protocol Biases
- Title(参考訳): BenchX: デモグラフィックとプロトコルバイアスによるがん検出と局在のためのAIモデルのベンチマーク
- Authors: Qi Chen, Wenxuan Li, Pedro R. A. S. Bassi, Xinze Zhou, Jakob Wasserthal, Ibrahim Ethem Hamamci, Sezgin Er, Ashwin Kumar, Yiwen Ye, Yuhan Wang, Yuyin Zhou, Akshay S. Chaudhari, Curtis Langlotz, Kang Wang, Yang Yang, Alan L. Yuille, Zongwei Zhou,
- Abstract要約: 人工知能(AI)は医療画像において顕著な成功を収めた。
これらのモデルは、実世界の臨床環境において矛盾なく機能することが多い。
我々は,12種類の腫瘍検出AIモデルを体系的に評価する85,355個のCTスキャンのベンチマークを開発した。
- 参考スコア(独自算出の注目度): 59.19934491064188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial intelligence (AI) has achieved remarkable success in medical imaging, but it is widely recognized that these models often perform inconsistently across real-world clinical settings. Such inconsistencies occur when patient demographics and imaging protocols vary, for example, in detecting small tumors, analyzing scans from different contrast phases, or evaluating patients of different ages or sexes. To quantify these inconsistencies, we develop a large-scale, open benchmark of 85,355 CT scans that systematically evaluates 12 tumor-detection AI models across tumor size, location, patient subgroup, and imaging protocol. We leverage large language models (LLMs) to extract and organize subgroup information from clinical data, which makes the analysis both scalable and reproducible. Our benchmark reveals that current state-of-the-art AI models, optimized for average accuracy, perform poorly in rare or underrepresented subgroups, such as young, female African Americans. However, collecting sufficient annotated data for these rare cases is often impractical. The benchmark provides a foundation for building more reliable and robust AI models for tumor detection and highlighting the need for rigorous, subgroup-level evaluation in medical imaging and computer vision. Datasets, code
- Abstract(参考訳): 人工知能(AI)は医療画像において顕著な成功を収めてきたが、これらのモデルが現実の臨床現場で不整合に機能することが広く認識されている。
例えば、小さな腫瘍の検出、異なるコントラストフェーズからのスキャンの分析、年齢や性別の異なる患者の評価などである。
これらの矛盾を定量化するために,腫瘍サイズ,位置,患者サブグループ,画像プロトコルの12種類の腫瘍検出AIモデルを体系的に評価する85,355個のCTスキャンの大規模かつオープンなベンチマークを開発した。
我々は,大規模言語モデル(LLM)を用いて臨床データからサブグループ情報を抽出し,整理する。
私たちのベンチマークでは、平均精度に最適化された現在の最先端AIモデルが、若く、女性的なアフリカ系アメリカ人のような希少または過小評価されたサブグループで不十分に動作していることが明らかになっている。
しかし、これらの稀なケースに対して十分な注釈付きデータを集めることは現実的ではないことが多い。
このベンチマークは、腫瘍検出のためのより信頼性が高く堅牢なAIモデルを構築する基盤を提供し、医療画像とコンピュータビジョンにおける厳密なサブグループレベルの評価の必要性を強調している。
データセット、コード
関連論文リスト
- Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Demographic Bias of Expert-Level Vision-Language Foundation Models in
Medical Imaging [13.141767097232796]
自己監督型視覚言語基盤モデルは、明示的なトレーニングアノテーションに頼ることなく、幅広い病態を検出することができる。
これらのAIモデルが人間の偏見を反映または増幅しないことを保証することが不可欠である。
本研究では,5つのグローバルソースデータセットを対象とした胸部X線診断における最先端の視覚言語基盤モデルのアルゴリズム的公正性について検討した。
論文 参考訳(メタデータ) (2024-02-22T18:59:53Z) - Realism in Action: Anomaly-Aware Diagnosis of Brain Tumors from Medical Images Using YOLOv8 and DeiT [0.873811641236639]
本稿では,異常耐性腫瘍の検出と分類のための臨床的に着想を得たフレームワークを提案する。
検出は、現実的に不均衡なデータセット上で微調整されたYOLOv8nを活用する。
また,患者レベルでの診断信頼性を評価するPTP(Patent-to-Patient)尺度も提案した。
論文 参考訳(メタデータ) (2024-01-06T20:53:02Z) - Knowledge-based in silico models and dataset for the comparative
evaluation of mammography AI for a range of breast characteristics, lesion
conspicuities and doses [2.9362519537872647]
M-SYNTH(M-SYNTH)は乳腺線維腺の密度分布の異なるコホートのデータセットである。
その結果,乳房密度の増加とともにモデル性能が低下し,体重密度が増大することがわかった。
曝露レベルが低下すると、AIモデルの性能は、乳房型に推奨される推奨投与量よりも低い被曝レベルで達成された最高性能で低下する。
論文 参考訳(メタデータ) (2023-10-27T21:14:30Z) - Artificial Intelligence Model for Tumoral Clinical Decision Support Systems [0.0]
脳腫瘍評価における比較診断は、新しい患者が評価された場合と同様の事例を比較するために、医療センターの利用可能な情報を使用することが可能である。
人工知能モデルを活用することで、提案システムは、与えられたクエリに対して最も類似した脳腫瘍を検索することができる。
論文 参考訳(メタデータ) (2023-01-09T22:15:18Z) - RadFusion: Benchmarking Performance and Fairness for Multimodal
Pulmonary Embolism Detection from CT and EHR [14.586822005217485]
肺塞栓症と診断されたEHRデータとCTを併用した1794例のベンチマークデータセットであるRadFusionを報告する。
以上の結果から,画像とEHRデータの統合により,集団間での正の正の比率に大きな差が生じることなく,分類性能が向上することが示唆された。
論文 参考訳(メタデータ) (2021-11-23T06:10:07Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。