論文の概要: Vision-language models for chest radiography do not always need the image
- arxiv url: http://arxiv.org/abs/2606.17710v2
- Date: Fri, 19 Jun 2026 19:06:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:14.588974
- Title: Vision-language models for chest radiography do not always need the image
- Title(参考訳): 胸部X線撮影のための視覚言語モデルは必ずしも画像を必要とするとは限らない
- Authors: Mahshad Lotfinia, Sebastian Ziegelmayer, Lisa Adams, Daniel Truhn, Andreas Maier, Soroosh Tayebi Arasteh,
- Abstract要約: 医用視覚言語モデルは、強い胸部X線撮影精度を報告し、これが画像を使用する証拠としてますます読まれている。
我々は,画像に介入し,関連領域を除外し,関連のない領域を除外し,別の患者の同一ラベルスキャンに切り替える因果監査を導入する。
9つのシステムで、画像アクセスのないテキストのみのモデルは、最高のマルチモーダルの5.7の精度ポイントに到達する。
- 参考スコア(独自算出の注目度): 4.363746910191589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical vision-language models report strong chest radiograph accuracy, and this is increasingly read as evidence that they use the image. That inference is unsafe: a model exploiting finding-name priors scores like one that reads the scan, and no standard benchmark separates them. We introduce a causal audit that intervenes on the image, occluding the relevant region, occluding an irrelevant one, and swapping in another patient's same-label scan, and combines three behavioral metrics to test whether a correct answer depends on the image. Across nine systems, a text-only model with no image access reaches within 5.7 accuracy points of the best multimodal one, and a 119-billion-parameter multimodal model is statistically indistinguishable from a 7-billion text-only baseline. The audit splits the cohort into three models that ignore the image, one that is unstable, and five that use it selectively, for a subset of findings; the categories hold across a second dataset, resolution, and prompt phrasing. Against board-certified radiologists, a text-only model is statistically indistinguishable from a radiologist's accuracy while grounding at zero, whereas the image-using models ground at radiologist-comparable rates. Reported confidence flags ungrounded answers only when a model uses the image. Grounding audits, not accuracy, should gate clinical deployment.
- Abstract(参考訳): 医用視覚言語モデルは、強い胸部X線撮影精度を報告し、これが画像を使用する証拠としてますます読まれている。
この推論は安全ではない。検索名前の先行値を利用したモデルは、スキャンを読み取るようなスコアであり、標準ベンチマークではそれらを分離しない。
我々は,画像に介入し,関連領域を除外し,関連のない領域を除外し,別の患者の同一ラベルスキャンに切り替える因果監査を導入し,正しい回答が画像に依存するかどうかを確認するために3つの行動指標を組み合わせた。
9つのシステムにわたって、画像アクセスのないテキストのみのモデルは、最良のマルチモーダルモデルの5.7の精度ポイントに到達し、119ビリオンパラメータのマルチモーダルモデルは、7ビリオンのテキストのみのベースラインと統計的に区別できない。
監査は、コホートを画像を無視した3つのモデル、不安定なモデル、そしてそれを選択的に使用する5つのモデルに分割する。
基板認証された放射線学者に対して、テキストのみのモデルは、ゼロで接地しながら放射線技師の精度と統計的に区別できない。
報告された信頼フラグは、モデルがイメージを使用する場合にのみ、解答される。
根拠監査は、正確ではなく、臨床展開をゲートすべきである。
関連論文リスト
- Calibrated Triage, Not Autonomy: Confidence Estimation for Medical Vision-Language Models [4.0196226339562555]
ヴィジュアル言語モデルは、画像のほとんど使用しながら、医用画像に関する質問に、ゆるやかに、自信を持って答えることができる。
我々は,5つのオープンウェイトLVLMと3つの医用視覚質問応答データセットの信頼度推定器について検討した。
論文 参考訳(メタデータ) (2026-06-14T16:39:17Z) - Brain Tumor Classification on MRI in Light of Molecular Markers [56.99710477905796]
1p/19q遺伝子の同時欠失は、低グレードグリオーマの臨床成績と関連している。
本研究の目的は,MRIを用いた畳み込みニューラルネットワークを脳がん検出に活用することである。
論文 参考訳(メタデータ) (2024-09-29T07:04:26Z) - Automated Chest X-Ray Report Generator Using Multi-Model Deep Learning
Approach [0.0]
本システムは,画像前処理,深層学習モデルを用いた異常検出,レポート作成という3つのステップを実行することで,放射線学レポートを生成する。
胸部X線診断の精度を高めるため, 放射線技師の作業量を削減し, 胸部X線診断の精度を高めることが期待される。
論文 参考訳(メタデータ) (2023-09-28T07:57:03Z) - Multimodal Image-Text Matching Improves Retrieval-based Chest X-Ray
Report Generation [3.6664023341224827]
X-REM (Contrastive X-Ray Report Match) は、X-REM (X-REM) という新しい検索方式の放射線学レポート生成モジュールである。
X-REMは、胸部X線画像の類似度を測定するための画像テキストマッチングスコアと、レポート検索のための放射線診断レポートを使用する。
論文 参考訳(メタデータ) (2023-03-29T04:00:47Z) - Significantly improving zero-shot X-ray pathology classification via fine-tuning pre-trained image-text encoders [50.689585476660554]
本稿では,正対損失緩和とランダムな文サンプリングを含む新たな微調整手法を提案する。
提案手法は,胸部X線データセットと3つの事前訓練モデル間のゼロショット病理分類を一貫して改善する。
論文 参考訳(メタデータ) (2022-12-14T06:04:18Z) - A knee cannot have lung disease: out-of-distribution detection with
in-distribution voting using the medical example of chest X-ray
classification [58.720142291102135]
この研究では、胸部X線分類モデルであるCheXnetを用いて、胸部X線14データセットをトレーニングした。
複数ラベル分類のためのOODデータを検出するために,IDV(In-distriion voting)を提案する。
ID (chest X-ray 14) と OOD データ (IRMA と ImageNet) に基づいてトレーニングした IDV アプローチは,平均で3つのデータセットにわたる 0.999 OOD 検出 AUC を達成した。
論文 参考訳(メタデータ) (2022-08-01T18:20:36Z) - Automated SSIM Regression for Detection and Quantification of Motion
Artefacts in Brain MR Images [54.739076152240024]
磁気共鳴脳画像における運動アーチファクトは重要な問題である。
MR画像の画質評価は,臨床診断に先立って基本的である。
構造類似度指数(SSIM)回帰に基づく自動画像品質評価法が提案されている。
論文 参考訳(メタデータ) (2022-06-14T10:16:54Z) - Convolutional-LSTM for Multi-Image to Single Output Medical Prediction [55.41644538483948]
発展途上国の一般的なシナリオは、複数の理由からボリュームメタデータが失われることである。
ヒトの診断過程を模倣したマルチイメージから単一診断モデルを得ることが可能である。
論文 参考訳(メタデータ) (2020-10-20T04:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。