論文の概要: RadSEM: A Finding-by-Finding Metric for Clinical Consistency in Radiology Reports
- arxiv url: http://arxiv.org/abs/2606.17062v1
- Date: Wed, 03 Jun 2026 13:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-21 20:00:42.778296
- Title: RadSEM: A Finding-by-Finding Metric for Clinical Consistency in Radiology Reports
- Title(参考訳): RadSEM : 放射線診断における臨床診断基準の検討
- Authors: Zhenhong Yang, Zhuoyun Liu, Jintao Fei, Wen Tang, Shichao Quan, Jun Zhao, Jun Xu,
- Abstract要約: RadSEMは参照を書き直し、順序付けられた原子探索文にレポートを生成する。
その後、矛盾制約付き多対多マッチングを実行する。
決定論的段階は、部分的および異常な詳細関係でペアを重み付けし、未一致の結果を数え、異常に焦点を絞ったF1スコアを生成する。
- 参考スコア(独自算出の注目度): 11.68664519234462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Radiology report evaluation must distinguish clinical compatibility from surface similarity, because negation, laterality, or normal-abnormal polarity can reverse a finding. We propose RadSEM (Radiology Sentence-Level Evaluation Metric), a constrained LLM-assisted metric for reference-based evaluation of radiology Findings. RadSEM rewrites reference and generated reports into ordered atomic finding sentences, each expressing one site-finding proposition. It then performs contradiction-constrained many-to-many matching: incompatible pairs such as "effusion" and "no effusion" receive no credit, while compatible granularity differences can receive partial credit. A deterministic stage weights pairs by part-whole and abnormal-detail relationships, counts unmatched findings, and produces an abnormal-focused weighted F1 score. Thus, the LLM supports structured rewriting and local alignment rather than acting as an opaque judge. We evaluate RadSEM with SSREE, a controlled monotonicity stress test built from 2,448 de-identified reports expanded into five graded corruption levels. RadSEM achieves Kendall tau_b of 0.957, all-pairs concordance of 97.8%, adjacent concordance of 95.0%, and strict five-level ordering for 81.9% of reports, outperforming radiology-specific and general text metrics while avoiding the failure in which polarity-inverted reports regain lexical overlap. On the same SSREE set, RadSEM outperforms the Ref-anchored RadSEM-Alt policy, improving adjacent concordance from 90.7% to 95.0% and strict ordering from 67.2% to 81.9%. On a 599-triplet synonym/antonym subset, RadSEM prefers synonyms in 597 cases (99.67%). These results suggest that explicit finding units, contradiction-aware matching, and abnormal-focused deterministic scoring make report scoring more interpretable and sensitive to clinically meaningful errors. Code is available at https://github.com/jdh-algo/RadSEM.
- Abstract(参考訳): 放射線学報告の評価は、否定、側方性、正常な偏極性が発見を逆転させる可能性があるため、表面の類似性と臨床上の相違を区別しなければならない。
RadSEM(Radiology Sentence-Level Evaluation Metric)は,放射像の基準に基づく評価のためのLLM支援指標である。
RadSEMは参照を書き直し、命令されたアトミック発見文にレポートを生成し、それぞれ1つのサイトファイリング命題を表現している。
そして、矛盾に制約された多対多対マッチングを実行する:「拡散」や「非拡散」のような非互換なペアはクレジットを受け取らず、互換性のある粒度差は部分クレジットを受け取ることができる。
決定論的段階は、部分的および異常な詳細関係でペアを重み付けし、未一致の結果を数え、異常に焦点を絞ったF1スコアを生成する。
したがって、LLMは不透明な裁判官として振る舞うのではなく、構造化された書き換えと局所的なアライメントをサポートする。
我々は,RadSEMをSSREEを用いて評価した。
RadSEMは0.957のKendall tau_b、97.8%の全ペア一致、95.0%の隣接一致、81.9%のレポートの厳密な5レベルの順序付けを達成し、極性反転レポートが語彙重複を回復する失敗を回避しつつ、放射線学固有の一般的なテキストメトリクスよりも優れていた。
同じSSREEセットでは、RadSEMはRef-anchored RadSEM-Altポリシーを上回り、隣接した一致を90.7%から95.0%に、厳密な順序を67.2%から81.9%に改善した。
599トリップのシノニム/アンソニーサブセットでは、RadSEMは597のシノニム(99.67%)を好む。
これらの結果から, 明らかな発見単位, 矛盾認識整合, 異常に焦点を絞った決定的スコアは, 臨床的に有意な誤りに対して, より解釈可能で敏感な結果をもたらすことが示唆された。
コードはhttps://github.com/jdh-algo/RadSEMで入手できる。
関連論文リスト
- Beyond Scalar Scores: Exploring LLM-based Metrics for Clinical Significance Evaluation in Radiology Reports [49.5225801722164]
既存のメトリクスは、医学的に根拠のないスカラーにレポートの品質を低下させることによって、この要件を曖昧にしている。
テストベッドとしてReEvalMedベンチマークを用いて,この境界について検討し,計量レベルの臨床的意義を評価する。
論文 参考訳(メタデータ) (2026-06-17T08:10:30Z) - RadOT-Eval: Auditable Structured-Evidence Transport for Radiology Report Evaluation [10.674070195561761]
RadOT-Evalは、ラジオロジーレポート生成のオフライン監査のための、解釈可能な構造化された最適輸送フレームワークである。
基準および候補報告を属性構造化された臨床証拠単位に分解する。
エントロピー規則化された最適輸送を用いて対応するエビデンスを調整し、モノトンリスクモデルにおいて臨床的に有意な側チャネルの相違を利用してエラーの重荷を予測する。
論文 参考訳(メタデータ) (2026-06-07T18:16:56Z) - What Are We Actually Decoding? Source Attribution for Non-Invasive Brain-to-Language Retrieval [42.66754319854329]
我々は,刺激同期MEG-to-audio検索を監査フレームワークとして再放送した。
構造的ショートカット、ウィンドウレベルの刺激ロックされたエビデンス、ウィンドウ間のコンテキストアグリゲーションを使用します。
これらの結果は、脳から言語へのパフォーマンスは、単に報告されるのではなく、ソース属性であるべきだことを示唆している。
論文 参考訳(メタデータ) (2026-05-23T11:23:39Z) - Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - Opportunistic Bone-Loss Screening from Routine Knee Radiographs Using a Multi-Task Deep Learning Framework with Sensitivity-Constrained Threshold Optimization [9.995968038491128]
変形性骨折を発症するまで、骨粗しょう症や骨減少症は診断されないことが多い。
変形性膝関節症評価のために, 膝X線撮影を行った。
単一チャネルグレースケール膝X線撮影のためのマルチタスクフレームワークSTR-Netを開発した。
論文 参考訳(メタデータ) (2026-04-22T07:12:04Z) - CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation [2.61152955442649]
CRIMSONは胸部X線レポート生成のための臨床基盤評価フレームワークである。
エラーを、誤った発見、不明な発見、8つの属性レベルのエラーを含む包括的な分類に分類する。
CRIMSONは、6人の放射線技師によって注釈された臨床的に重要なエラー数と強く一致して検証される。
論文 参考訳(メタデータ) (2026-03-06T11:43:42Z) - From Black Box to Glass Box: Cross-Model ASR Disagreement to Prioto Review in Ambient AI Scribe Documentation [43.148402136307716]
異種ASRシステム間のクロスモデル不一致は、基準のない不確実性信号として機能する。
商用APIとオープンソースエンジンにまたがる8つのASRシステムを備えた,50の公開医療用オーディオクリップを転写した。
低アグリメント領域は内容の不一致に富み、高リスク質量のクインタイル全体では53.9%から73.9%に増加した。
論文 参考訳(メタデータ) (2026-03-02T13:02:13Z) - PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - Generative Large Language Models Trained for Detecting Errors in Radiology Reports [11.852981889270012]
このデータセットは、特定のプロンプトを用いてGPT-4によって生成された1,656の合成胸部放射線学報告を含む。
Llama-3、GPT-4、BiomedBERTなどいくつかのモデルはゼロショットプロンプト、少数ショットプロンプト、微調整戦略を用いて改良された。
ゼロショットプロンプトを用いることで、微調整のLlama-3-70B-Instructモデルは、否定誤差0.769、左右誤差0.772、間隔変更エラー0.750、転写エラー0.828、全体の0.780というF1スコアで最高のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-04-06T03:02:36Z) - Supervised Machine Learning Algorithm for Detecting Consistency between
Reported Findings and the Conclusions of Mammography Reports [66.89977257992568]
マンモグラフィーは患者の病態の診断を文書化する。
多くの報告は非標準用語(非BI-RADS記述子)と不完全文を含んでいる。
本研究の目的は,報告された結論と,報告された放射線学の知見に基づいて期待される結果とを比較して,そのような不一致を検出するツールを開発することである。
論文 参考訳(メタデータ) (2022-02-28T08:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。