論文の概要: ReportQA: QA-Based Radiology Report Evaluation
- arxiv url: http://arxiv.org/abs/2606.15037v1
- Date: Sat, 13 Jun 2026 00:43:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.664261
- Title: ReportQA: QA-Based Radiology Report Evaluation
- Title(参考訳): レポートQA:QAをベースとした放射線学レポートの評価
- Authors: Yiming Shi, Shaoshuai Yang, Xi Chen, Haolin Li, Hengyu Zhang, Che Jiang, Kaiwen Wang, Xun Zhu, Dong Xie, Fei Wang, Dejing Dou, Miao Li, Ji Wu,
- Abstract要約: 臨床関連およびフレキシブルな放射線診断評価フレームワークであるReportQAを提案する。
まず、複数の画像モダリティと解剖学的領域をカバーするデータセットを収集する。
次に,臨床対象と属性の知識ツリーを放射線医の指導で構築し,大規模言語モデル(LLM)を用いて生レポートから構造化情報を抽出する。
評価中、レポートは文脈として扱われ、LCMは判断モデルとして機能し、QAペアに応答する。
- 参考スコア(独自算出の注目度): 34.29681217890862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Radiology report evaluation is essential for advancing automated report generation. Natural language generation metrics have limited clinical relevance. Clinical efficacy (CE) metrics evaluate important medical findings, but focus mainly on presence and cover only a limited set of entities. Due to heavy reliance on manual annotations, it is difficult for CE metrics to extend clinical entities or attributes. In clinical practice, radiology reports serve as a medium for information transfer. Clinicians use them to perform downstream diagnostic tasks without directly inspecting images. Based on this insight, we propose ReportQA, a clinical-related and flexible radiology report evaluation framework, supporting detailed quantitative analysis of radiology report generation systems. We first collect datasets covering multiple imaging modalities and anatomical regions. We then construct knowledge trees of clinical entities and attributes with radiologist guidance, and use large language models (LLMs) to extract structured information from raw reports. Next, we generate QA pairs from predefined templates and apply quality control through self-filtering and report-based filtering. During evaluation, the report is treated as context, and an LLM acts as a judge model to answer the QA pairs. Based on the resulting QA accuracy, we introduce QAScore metric. Compared with existing metrics, QAScore shows better alignment with radiologist judgments. Experiments on multiple state-of-the-art vision-language models reveal that current report-based inference paradigms struggle to learn fine-grained clinical representations and exhibit strong negative prior biases. In contrast, question-driven inference provides a more effective alternative. For reproducibility and extensibility, we release the knowledge trees, structured reports, and QA pairs, along with the pipeline code for QA construction and evaluation.
- Abstract(参考訳): 自動レポート生成の推進には放射線学報告の評価が不可欠である。
自然言語生成の指標は臨床関連性に制限がある。
臨床的有効性(CE)指標は重要な医学的発見を評価するが、主に存在感を重視し、限られた実体のみをカバーする。
手動アノテーションに大きく依存しているため、CEメトリクスが臨床エンティティや属性を拡張することは困難である。
臨床実践において、放射線医学報告は情報伝達の媒体として機能する。
臨床医は、画像を直接検査することなく下流の診断タスクを実行するためにそれらを使用する。
この知見に基づいて,臨床関連およびフレキシブルな放射線診断レポート評価フレームワークであるReportQAを提案し,放射線診断レポート生成システムの詳細な定量的解析を支援する。
まず、複数の画像モダリティと解剖学的領域をカバーするデータセットを収集する。
次に,臨床対象と属性の知識ツリーを放射線医の指導で構築し,大規模言語モデル(LLM)を用いて生レポートから構造化情報を抽出する。
次に、予め定義されたテンプレートからQAペアを生成し、自己フィルタリングとレポートベースのフィルタリングによって品質制御を適用する。
評価中、レポートは文脈として扱われ、LCMは判断モデルとして機能し、QAペアに応答する。
得られたQAの精度に基づいて、QAScoreメトリックを導入する。
既存の指標と比較すると、QAScoreは放射線科医の判断とよく一致している。
複数の最先端のビジョン言語モデルの実験により、現在のレポートベースの推論パラダイムは、きめ細かい臨床表現を学習し、強い負の事前バイアスを示すのに苦労していることが明らかになった。
対照的に、質問駆動推論はより効果的な代替手段を提供する。
再現性と拡張性のために、我々はQA構築と評価のためのパイプラインコードとともに、知識ツリー、構造化レポート、QAペアをリリースする。
関連論文リスト
- CT-FineBench: A Diagnostic Fidelity Benchmark for Fine-Grained Evaluation of CT Report Generation [51.11942945171396]
従来の評価指標は、語彙重なり合いやエンティティマッチングの粗い尺度のみを提供する。
我々はCT-RATEとMerlinのベンチマークであるCT-FineBenchを提案し、CTレポートの微細な事実整合性を評価する。
我々のベンチマークは、綿密な質問回答(QA)ベースのプロセスによって構築されます。
論文 参考訳(メタデータ) (2026-04-27T03:32:46Z) - AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - Medical AI Consensus: A Multi-Agent Framework for Radiology Report Generation and Evaluation [0.2039123720459736]
放射線学のエコシステムにおけるマルチモーダルな臨床推論のためのベンチマークおよび評価環境として機能するマルチエージェント強化学習フレームワークを提案する。
提案フレームワークは,画像解析,特徴抽出,レポート生成,レビュー,評価を担当する10の特殊エージェントからなるモジュールアーキテクチャにおいて,大規模言語モデル(LLM)と大規模ビジョンモデル(LVM)を統合する。
論文 参考訳(メタデータ) (2025-09-22T04:31:27Z) - Clinically Grounded Agent-based Report Evaluation: An Interpretable Metric for Radiology Report Generation [32.410641778559544]
ICARE (Interpretable and Clinicallygrounded Agent-based Report Evaluation) は、解釈可能な評価フレームワークである。
2つのエージェントは、それぞれが基礎的真実または生成されたレポートを持ち、臨床的に有意義な質問を発生し、互いにクイズする。
スコアを質問応答ペアにリンクすることで、ICAREは透明で解釈可能な評価を可能にする。
論文 参考訳(メタデータ) (2025-08-04T18:28:03Z) - S-RRG-Bench: Structured Radiology Report Generation with Fine-Grained Evaluation Framework [39.542375803362965]
胸部X線などの診断画像のための放射線診断レポート生成(RRG)は、臨床とAIの両方において重要な役割を担っている。
従来のフリーテキストレポートは冗長性と一貫性のない言語に悩まされ、臨床的に重要な詳細の抽出が複雑になる。
本稿では、データセット構築、モデルトレーニング、新しい評価フレームワークの導入を含む、S-RRGに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-08-04T05:49:41Z) - RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。
RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。
我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文 参考訳(メタデータ) (2024-06-24T17:49:28Z) - WoLF: Wide-scope Large Language Model Framework for CXR Understanding [8.265578494822087]
胸部X線理解のための広スコープ大言語モデルフレームワークを提案する。
実際の臨床シナリオにおける正確な診断に利用される多面的患者の記録を収集する。
論文 参考訳(メタデータ) (2024-03-19T06:39:23Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。