論文の概要: Beyond Scalar Scores: Exploring LLM-based Metrics for Clinical Significance Evaluation in Radiology Reports
- arxiv url: http://arxiv.org/abs/2606.18797v1
- Date: Wed, 17 Jun 2026 08:10:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.059941
- Title: Beyond Scalar Scores: Exploring LLM-based Metrics for Clinical Significance Evaluation in Radiology Reports
- Title(参考訳): スカラースコアを超えて:放射線診断における臨床的意義評価のためのLCM基準の探索
- Authors: Qingyu Lu, Ruochen Li, Liang Ding, Yufei Xia, Youxiang Zhu, Dacheng Tao,
- Abstract要約: 既存のメトリクスは、医学的に根拠のないスカラーにレポートの品質を低下させることによって、この要件を曖昧にしている。
テストベッドとしてReEvalMedベンチマークを用いて,この境界について検討し,計量レベルの臨床的意義を評価する。
- 参考スコア(独自算出の注目度): 49.5225801722164
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Reliable evaluation of generated radiology reports requires strict clinical accuracy, as omitted critical findings or mischaracterized radiographic observations can directly affect patient care. Existing metrics obscure this requirement by reducing report quality to a medically ungrounded scalar. Although Large Language Models (LLMs) possess rich medical knowledge, they likewise struggle to draw a reliable boundary between clinically significant errors and harmless variation. We study this boundary using ReEvalMed benchmark as testbed and evaluate metric-level clinical significance from detecting true clinical errors ("Discrimination") and tolerating insignificant variations ("Robustness"). Across 8 LLM evaluators under one-pass and two-pass settings, we identify a widespread discrimination bias: models effectively detect errors but also over-penalize harmless rephrasings. To mitigate this, we synthesize 4k report pairs and train lightweight interpretable metrics on Qwen3-8B and MedGemma-4B. Our trained metric sharpens the clinical significance boundary, surpassing 32B-scale medical LLMs and remaining competitive with proprietary models. Crucially, the more costly two-pass setting fails to consistently improve overall performance and mainly trades discrimination for robustness. These findings suggest one-pass trained metrics as the practical choice for cost-sensitive deployment, with two-pass inference reserved for settings where D-R balance is critical. We will release the dataset and metric.
- Abstract(参考訳): 生成した放射線学報告の信頼性評価には厳密な臨床的正確性が必要である。
既存のメトリクスは、医学的に根拠のないスカラーにレポートの品質を低下させることによって、この要件を曖昧にしている。
LLM(Large Language Models)は豊富な医療知識を持っているが、臨床的に重要なエラーと無害な変化の間に信頼性のある境界を描くのにも苦労している。
この境界線をReEvalMedベンチマークを用いて検証し,真の臨床誤差を検出すること(識別)と,難易度を許容すること(ロバストネス)から,計量レベルの臨床的意義を評価する。
8個のLLM評価器を1パスと2パスの設定で行い、モデルがエラーを効果的に検出するだけでなく、無害な言い直しを過小評価する。
これを軽減するため、4kレポートペアを合成し、Qwen3-8BとMedGemma-4Bで軽量な解釈可能なメトリクスをトレーニングする。
訓練された指標は臨床的意義境界を鋭くし,32Bスケールの医療用LDMを超越し,プロプライエタリなモデルとの競争を継続する。
致命的なことに、よりコストのかかる2パス設定は、全体的なパフォーマンスを継続的に改善せず、主に堅牢性に対する差別と引き換えに失敗する。
これらの結果から,D-Rバランスが重要となる環境では,1パスのトレーニングされたメトリクスが2パスの推論を留保する,コスト感受性デプロイメントの実践的選択である可能性が示唆された。
データセットとメトリックを公開します。
関連論文リスト
- CT-FineBench: A Diagnostic Fidelity Benchmark for Fine-Grained Evaluation of CT Report Generation [51.11942945171396]
従来の評価指標は、語彙重なり合いやエンティティマッチングの粗い尺度のみを提供する。
我々はCT-RATEとMerlinのベンチマークであるCT-FineBenchを提案し、CTレポートの微細な事実整合性を評価する。
我々のベンチマークは、綿密な質問回答(QA)ベースのプロセスによって構築されます。
論文 参考訳(メタデータ) (2026-04-27T03:32:46Z) - Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。
提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。
本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文 参考訳(メタデータ) (2026-02-27T04:49:01Z) - CTest-Metric: A Unified Framework to Assess Clinical Validity of Metrics for CT Report Generation [8.08950963137043]
CTest-Metricは,CT RRGのメトリクスの臨床的実現可能性を決定する3つのモジュールを備えた,最初の統合された計量評価フレームワークである。
モジュールテストでは, (i) LLMによるリフレッシングによるWSG, (ii) 重症度における合成エラー注入(SEI) および (iii) MvE (Metrics-vs-Expert correlation) を用いて臨床評価を行った。
8つの広く使われているメトリクス(BLEU, ROUGE, METEOR, BERTScore-F1, F1-RadGraph, Ra)
論文 参考訳(メタデータ) (2026-01-16T18:09:19Z) - Toward Reliable Clinical Coding with Language Models: Verification and Lightweight Adaptation [3.952186976672079]
本稿では,高速エンジニアリングや小型微調整を含む軽量な介入により,探索手法の計算オーバーヘッドを伴わずに精度を向上できることを示す。
階層的なニアミスエラーに対処するために,単体タスクとパイプラインコンポーネントの両方に臨床コード検証を導入する。
論文 参考訳(メタデータ) (2025-10-08T23:50:58Z) - ReEvalMed: Rethinking Medical Report Evaluation by Aligning Metrics with Real-World Clinical Judgment [10.958326795130112]
臨床基盤のメタ評価フレームワークを提案する。
臨床診断基準は,臨床のアライメントと重要な指標能力にまたがる。
我々のフレームワークは、より臨床的に信頼性の高い評価方法を構築するためのガイダンスを提供する。
論文 参考訳(メタデータ) (2025-09-30T21:00:47Z) - CRG Score: A Distribution-Aware Clinical Metric for Radiology Report Generation [6.930435788495898]
CRGスコア(CRG Score, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア)
ラベル分布に基づく罰則のバランスをとることにより、より公平で堅牢な評価を可能にし、臨床に整合した報酬機能として機能する。
論文 参考訳(メタデータ) (2025-05-22T17:02:28Z) - GEMA-Score: Granular Explainable Multi-Agent Scoring Framework for Radiology Report Evaluation [7.838068874909676]
Granular Explainable Multi-Agent Score (GEMA-Score)は、大規模言語モデルに基づくマルチエージェントワークフローを通じて、客観的および主観的評価を行う。
GEMA-Scoreは、公開データセット上での人間の専門家評価と最も高い相関を達成している。
論文 参考訳(メタデータ) (2025-03-07T11:42:22Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。