論文の概要: RadOT-Eval: Auditable Structured-Evidence Transport for Radiology Report Evaluation
- arxiv url: http://arxiv.org/abs/2606.08769v1
- Date: Sun, 07 Jun 2026 18:16:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.438021
- Title: RadOT-Eval: Auditable Structured-Evidence Transport for Radiology Report Evaluation
- Title(参考訳): RadOT-Eval: Auditable Structured-Evidence Transport for Radiology Report Evaluation
- Authors: Weixin Liu, Juming Xiong, Yang Li, Qingyuan Song, Susannah Rose, Murat Kantarcioglu, Bradley Malin, Zhijun Yin,
- Abstract要約: RadOT-Evalは、ラジオロジーレポート生成のオフライン監査のための、解釈可能な構造化された最適輸送フレームワークである。
基準および候補報告を属性構造化された臨床証拠単位に分解する。
エントロピー規則化された最適輸送を用いて対応するエビデンスを調整し、モノトンリスクモデルにおいて臨床的に有意な側チャネルの相違を利用してエラーの重荷を予測する。
- 参考スコア(独自算出の注目度): 10.674070195561761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic evaluation is critical for high-stakes text generation, where errors often involve omitted findings, hallucinated content, polarity reversals, location changes, uncertainty mismatches, and temporal-comparison errors rather than low surface similarity alone. Radiology report generation provides a challenging test case because generated reports must preserve structured clinical evidence across sources. We present RadOT-Eval, an interpretable structured-evidence optimal transport framework for offline auditing of radiology report generation. RadOT-Eval decomposes reference and candidate reports into attribute-structured clinical evidence units, aligns corresponding evidence using entropy-regularized optimal transport, and uses clinically meaningful side-channel discrepancies in a monotone risk model to predict error burden. All transport, feature, and readout choices are selected using the ReXVal dataset, and the frozen system is evaluated on the independent RadEvalX dataset. RadOT-Eval achieves Spearman correlations of 0.715, 0.548, and 0.399 with total, clinically significant, and clinically insignificant annotated error burden, respectively, yielding higher point estimates than standard evaluation metrics and the open-source large language model (LLM)-based evaluator GREEN-radllama2-7B. In a frozen auxiliary corruption-sensitivity stress test on ReXErr-v1, RadOT-Eval achieves 0.768 AUROC and a 0.990 corrupted-greater-than-clean paired win rate. These results show that structured evidence transport provides an auditable, rank-oriented evaluation tool for high-stakes generated clinical text under ReXVal-only model selection and frozen RadEvalX testing.
- Abstract(参考訳): 自動評価は、しばしば省略された発見、幻覚的内容、極性反転、位置変化、不確実性ミスマッチ、時間的比較誤差を伴い、低表面の類似性のみでなく、しばしばエラーを伴うハイテイクテキスト生成において重要である。
放射線学報告の生成は、発生した報告がソース全体にわたって構造化された臨床証拠を保持する必要があるため、困難なテストケースを提供する。
本稿では,RadOT-Evalについて述べる。RadOT-Evalは,ラジオグラフィーレポート生成のオフライン監査のための,解釈可能な最適トランスポートフレームワークである。
RadOT-Evalは、基準および候補報告を属性構造化された臨床エビデンス単位に分解し、エントロピー規則化された最適輸送を用いて対応するエビデンスを整列し、モノトンリスクモデルにおいて臨床的に有意な側チャネル異常を利用してエラーの重荷を予測する。
ReXValデータセットを使用して、すべてのトランスポート、フィーチャー、リードアウトの選択が選択され、フリーズシステムは独立したRadEvalXデータセットで評価される。
RadOT-Eval は Spearman の0.715,0.548,0.399 の相関を,それぞれ,臨床的に有意な,臨床的に有意な注釈付きエラー重み付きで達成し,標準評価指標よりも高い点推定値とオープンソースの大言語モデル (LLM) に基づく評価指標 GREEN-radllama2-7B が得られる。
ReXErr-v1の凍結予備汚職感受性試験では、RadOT-Evalは0.768 AUROCと0.990大きめのクリーン対の勝利率を達成した。
これらの結果から,構造化されたエビデンストランスポートは,ReXValのみのモデル選択とRadEvalXの凍結テストにより,ハイテイクな臨床テキストのランク指向評価ツールを提供することがわかった。
関連論文リスト
- Detecting Clinical Discrepancies in Health Coaching Agents: A Dual-Stream Memory and Reconciliation Architecture [71.46525715889656]
汎用エージェントメモリシステムは、ユーザの最新のステートメントで古い事実を上書きすることでコヒーレンスを最適化する。
本稿では,患者の物語を構造化された臨床記録から厳密に分離するDual-Stream Memory Architectureを提案する。
675日間のウェルネスコーチングセッションにおいて,26名の患者を対象にこのアーキテクチャを評価した。
論文 参考訳(メタデータ) (2026-04-29T17:59:28Z) - CT-FineBench: A Diagnostic Fidelity Benchmark for Fine-Grained Evaluation of CT Report Generation [51.11942945171396]
従来の評価指標は、語彙重なり合いやエンティティマッチングの粗い尺度のみを提供する。
我々はCT-RATEとMerlinのベンチマークであるCT-FineBenchを提案し、CTレポートの微細な事実整合性を評価する。
我々のベンチマークは、綿密な質問回答(QA)ベースのプロセスによって構築されます。
論文 参考訳(メタデータ) (2026-04-27T03:32:46Z) - Calibrated Confidence Expression for Radiology Report Generation [33.24673060327421]
放射線学レポート生成における大規模視覚言語モデル(LVLM)は、正確な予測と臨床的に解釈可能な指標を必要とする。
現在の最先端言語モデルはしばしば自信過剰であり、放射線学レポート生成などのマルチモーダル設定における校正に関する研究は限られている。
本稿では,LVLMを微調整する医療強化学習フレームワークであるConRadを紹介する。
論文 参考訳(メタデータ) (2026-03-31T09:37:33Z) - Ran Score: a LLM-based Evaluation Score for Radiology Report Generation [28.574749773136162]
我々は,ヒトの専門知識と大規模言語モデルを組み合わせた臨床用ガイドフレームワークを開発した。
臨床医が指導するプロンプト最適化は,放射線技師による基準基準との整合性を向上することを示す。
論文 参考訳(メタデータ) (2026-03-24T08:29:26Z) - CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation [2.61152955442649]
CRIMSONは胸部X線レポート生成のための臨床基盤評価フレームワークである。
エラーを、誤った発見、不明な発見、8つの属性レベルのエラーを含む包括的な分類に分類する。
CRIMSONは、6人の放射線技師によって注釈された臨床的に重要なエラー数と強く一致して検証される。
論文 参考訳(メタデータ) (2026-03-06T11:43:42Z) - Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。
提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。
本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文 参考訳(メタデータ) (2026-02-27T04:49:01Z) - AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - Automated Structured Radiology Report Generation [11.965406008391371]
本稿では,自由テキストラジオロジーレポートを標準化形式に再構成する新しいタスクであるStructured Radiology Report Generation (SRRG)を紹介する。
我々は,大規模言語モデル (LLM) を用いてレポートを再構成し,厳密な構造化されたレポートデシダタに追従して,新しいデータセットを作成する。
また,55ラベルを用いた詳細な疾患分類モデルであるSRR-BERTを導入し,構造化レポートのより正確かつ臨床的に評価した。
論文 参考訳(メタデータ) (2025-05-30T05:23:01Z) - RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。
RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。
我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文 参考訳(メタデータ) (2024-06-24T17:49:28Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。