論文の概要: A Controlled Audit of Pretraining Contamination in Public Medical Vision-Language Benchmarks
- arxiv url: http://arxiv.org/abs/2606.10066v1
- Date: Mon, 08 Jun 2026 18:40:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.135355
- Title: A Controlled Audit of Pretraining Contamination in Public Medical Vision-Language Benchmarks
- Title(参考訳): 医用医用視力基準の事前学習の監査
- Authors: Bruce Changlong Xu, Lan Wu, Alexander Ryu,
- Abstract要約: 医用視覚言語モデル(VLM)は、画像と質問応答ペアが何年も無料でダウンロードされている公開ベンチマークで評価される。
SLAKE-En,PathVQA,VQA-RAD,および4つの検出器ファミリを用いたOmniMedVQAミラーのオープンVLMを検査した。
- 参考スコア(独自算出の注目度): 46.43161388634735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical vision-language models (VLMs) are evaluated on public benchmarks whose images and question-answer pairs have been freely downloadable for years, yet reported accuracy assumes these examples were absent from pretraining. We audit open VLMs on SLAKE-En, PathVQA, VQA-RAD, and an auxiliary public OmniMedVQA mirror using four detector families: image-side near-neighbour overlap against PMC-OA-beta, canonical-order exchangeability, cohort-relative Min-K%++ tail enrichment, and cross-model top-K overlap. We find measurable image-side source overlap on SLAKE-En: 19.8% of images are flagged under SigLIP-B-16 and 4.2% under SigLIP-SO400M, while out-of-domain controls produce 0/2000 flags. Manual adjudication shows same-modality, same-projection matches to different patients rather than verified pixel-level duplicates, so we interpret this as source or distributional overlap rather than confirmed per-image memorization. On the text side, Qwen2.5-VL on SLAKE-En shows a canonical-order exchangeability signal that survives ordering ablation and external non-medical baselines. On the OmniMedVQA mirror, exchangeability fires for five medical and general VLMs while BLIP-2 remains clean. In contrast, cohort-relative Min-K%++ tail enrichment and cross-model top-K overlap collapse under an external pre-domain baseline: BLIP-2 reproduces the apparent positive signals despite lacking plausible medical-VQA exposure. We conclude that these cohort-relative detectors are unreliable as standalone membership-inference signals on small medical-VLM cohorts.
- Abstract(参考訳): 医用視覚言語モデル(VLM)は、画像と問合せ対が何年も無料でダウンロードされている公開ベンチマークで評価されるが、これらの例は事前訓練をしていないと報告されている。
SLAKE-En, PathVQA, VQA-RAD, および補助的な公共用OmniMedVQAミラー上で, PMC-OA-betaに対する画像側近傍のオーバーラップ, 正準次交換性, コホート関連Min-K%++テールエンリッチメント, クロスモデルトップ-Kオーバーラップの4つの検出器群を用いて, VLMを検査した。
SigLIP-B-16では画像の19.8%がSigLIP-SO400Mでは4.2%、ドメイン外制御では0/2000フラグが生成される。
手動による判断は, 画像単位の暗記ではなく, 画像単位の再現ではなく, 異なる患者に同一の類似性, 同一の投影性を示すので, 画像単位の暗記よりも, ソースあるいは分布上の重複と解釈する。
テキスト側では、SLAKE-En上のQwen2.5-VLは、順序付けアブレーションと外部の非医学ベースラインを生き残る標準順序交換性信号を示す。
OmniMedVQAミラーでは、BLIP-2がきれいである間、5つの医療用および一般用VLMの交換性火器が点火される。
対照的に、Cohort-relative Min-K%++ tail enrichment とcross-model top-K overlap collapse under an external pre- domain baseline: BLIP-2は、有毒な医用VQA露光を欠いているにもかかわらず、明らかな正のシグナルを再現する。
これらのコホート関連検出器は,小型の医用VLMコホート上でのスタンドアロンのメンバシップ推論信号として信頼性が低いと結論付けた。
関連論文リスト
- Beyond Symmetric Alignment: Spectral Diagnostics of Modality Imbalance in Vision-Language Models in the Medical Domain [43.675927916974466]
スペクトルアライメントスコア(SAS, Spectral Alignment Score)は、アンカーモダリティの主固有基底に両モードを投影し、固有値重み付き固有モード相関を計算する非対称な計量である。
実験の結果, 医用画像は2つの臨床報告よりもリッチな構造情報を保持しており, 競合するすべての指標には見えない方向非対称であり, SASは医療領域における検索性能と最強のゼロラベル相関を達成し, 臨床展開のための実用的な診断ツールとして位置づけていることがわかった。
論文 参考訳(メタデータ) (2026-06-03T08:50:30Z) - Cross-modal linkage risk in clinical vision-language models [1.828619151598757]
視覚言語モデル(VLM)は、ペアの胸部X線写真と放射線学レポートに基づいて訓練され、インスタンスレベルの画像レポート対応を保存できる共有埋め込み空間を学習する。
これは、ラジオグラフとレポートが買収後に意図的に分離された設定でプライバシー上のリスクを生じさせる。
我々はこれをイメージ・ツー・レポート検索として定式化し、プライバシーシナリオとしてではなく、パブリック・ペアのコホートを使用してリスクを監査した。
論文 参考訳(メタデータ) (2026-06-01T14:01:46Z) - LiteMedCoT-VL: Parameter-Efficient Adaptation for Medical Visual Question Answering [1.0559587981237513]
235Bの教師モデルから2Bの学生モデルへの連鎖推論を伝達するパイプラインである LiteMedCoT-VL を紹介する。
PMC-VQAベンチマークでは、LiteMedCoT-VLは64.9%の精度で、ゼロショットのQwen3-VL-4Bベースラインの53.9%を11.0ポイント上回っている。
論文 参考訳(メタデータ) (2026-05-10T07:21:33Z) - Auditing Frontier Vision-Language Models for Trustworthy Medical VQA: Grounding Failures, Format Collapse, and Domain Adaptation [4.177028541321909]
医療用VQAの5つの視覚言語モデル(VLM)を2つの信頼関連軸に沿って評価する。
モデルは解剖学的および病理学的ターゲットを不十分にローカライズする。
同じモデルをローカライズして回答するセルフグラウンドパイプラインは、VQAの精度を低下させる。
論文 参考訳(メタデータ) (2026-04-30T11:11:47Z) - Maximizing T2-Only Prostate Cancer Localization from Expected Diffusion Weighted Imaging [68.57480103120561]
マルチパラメトリックMRIは前立腺癌の検出と局所化のための第一線非侵襲的アプローチとしてますます推奨されている。
T2w画像のみを用いた早期機械学習の試みは、放射線医に注釈された病変の診断に有望な性能を示した。
本研究は、T2wのみを推論に用いて、独立した病理組織学的ラベルに基づいて個々のがんを局在させる、より難しい応用について検討する。
論文 参考訳(メタデータ) (2026-04-01T14:50:18Z) - Consistent but Dangerous: Per-Sample Safety Classification Reveals False Reliability in Medical Vision-Language Models [2.064612766965483]
入力画像ではなくテキストパターンを頼りにすることで,モデルが完全整合性を達成することを示す。
我々は,4つのクワラントの安全分類を導入し,一貫性(パラフレーズ付きプロンプト間の安定な予測)と画像信頼度を共同評価する。
論文 参考訳(メタデータ) (2026-03-22T00:06:53Z) - Intra-video Positive Pairs in Self-Supervised Learning for Ultrasound [65.23740556896654]
自己教師付き学習 (SSL) は, 医療画像におけるラベル付きデータの健全性に対処するための戦略である。
本研究では,同じBモード超音波映像をSSLのペアとして用いた近位画像の利用効果について検討した。
この手法は、従来の超音波特異的比較学習法の平均検査精度を新型コロナウイルスの分類で上回り、IVPP(Intra-Video Positive Pairs)と命名された。
論文 参考訳(メタデータ) (2024-03-12T14:57:57Z) - Task-Based Assessment for Neural Networks: Evaluating Undersampled MRI
Reconstructions based on Human Observer Signal Detection [45.82374977939355]
正規化ルート平均二乗誤差(NRMSE)や構造類似度(SSIM)などの画像品質を評価するための一般的な指標は、画像の微妙な特徴の影響を平均化するグローバルな指標である。
我々は,特定のタスクに微妙な信号を組み込んだ画像品質測定を用いて,アンダーサンプの効果を局所的に評価する画像品質評価を行った。
論文 参考訳(メタデータ) (2022-10-21T16:39:04Z) - Transformers Improve Breast Cancer Diagnosis from Unregistered
Multi-View Mammograms [6.084894198369222]
我々はマルチビュー・ビジョン・トランスフォーマーのアーキテクチャを活用し、同一患者から複数のマンモグラフィーの長距離関係を1回の検査で捉えた。
我々の4画像(2面2面)トランスフォーマーモデルでは、ROC曲線下(AUC = 0.818)でのケース分類が可能である。
また、AUCは0.724(CCビュー)と0.769(MLOビュー)の2つの片面2面モデルより優れている。
論文 参考訳(メタデータ) (2022-06-21T03:54:21Z) - Improved Slice-wise Tumour Detection in Brain MRIs by Computing
Dissimilarities between Latent Representations [68.8204255655161]
磁気共鳴画像(MRI)の異常検出は教師なし手法で行うことができる。
本研究では,変分オートエンコーダの潜伏空間における相似関数の計算に基づいて,腫瘍検出のためのスライスワイズ半教師法を提案する。
本研究では,高解像度画像上でのモデルをトレーニングし,再現の質を向上させることにより,異なるベースラインに匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2020-07-24T14:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。