論文の概要: Possible or Definite? A Benchmark for Evaluating Diagnostic Uncertainty Preservation in Clinical Text
- arxiv url: http://arxiv.org/abs/2606.18471v1
- Date: Tue, 16 Jun 2026 20:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.89237
- Title: Possible or Definite? A Benchmark for Evaluating Diagnostic Uncertainty Preservation in Clinical Text
- Title(参考訳): 可能性・確定性 : 臨床テキストにおける診断不確実性評価のためのベンチマーク
- Authors: Hongbo Du, Zixin Lu, Jiaming Qu,
- Abstract要約: 大きな言語モデル(LLM)は、要約やリビジョンといった臨床テキストタスクにますます使われている。
臨床実践では、肺炎の可能性のようなフレーズは、利用可能な証拠の強さを伝達する。
これらの不確実性表現を変えることは、臨床的意味を完全に変えることができる。
- 参考スコア(独自算出の注目度): 0.28037951156321367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used for clinical text tasks such as summarization and revision. While most studies evaluate the fluency and coherence of LLM-generated text, whether LLMs correctly preserve diagnostic uncertainty remains underexplored. In clinical practice, phrases such as ``possible pneumonia'' communicate the strength of available evidence and directly guide decisions about follow-up testing and treatment. Altering these uncertainty expressions can change the clinical meaning entirely. In this paper, we systematically evaluated this problem in two steps. First, we constructed a benchmark of 1,200 clinical documents with 9,184 uncertainty annotations across five levels. Second, we evaluated three LLMs on this benchmark. Our results show that (1) LLMs preserve the original uncertainty cues poorly, often less than half the time; (2) LLMs struggle with nuanced distinctions between adjacent levels. This work reveals a failure mode not captured by standard evaluation metrics and provides implications for the safe deployment of LLMs in clinical workflows.
- Abstract(参考訳): 大きな言語モデル(LLM)は、要約やリビジョンといった臨床テキストタスクにますます使われている。
LLM生成テキストの流速とコヒーレンスを評価する研究は多くあるが、LSMが正しく診断の不確実性を保っているかどうかはまだ不明である。
臨床実践では、「可能性肺炎」などのフレーズは、利用可能な証拠の強さを伝え、フォローアップテストと治療に関する決定を直接指導する。
これらの不確実性表現を変えることは、臨床的意味を完全に変えることができる。
本稿では,この問題を2つのステップで体系的に評価した。
まず,5段階にわたる9,184個の不確実性アノテーションを用いた1200の臨床文書のベンチマークを構築した。
第2に、このベンチマークで3つのLSMを評価した。
以上の結果から, 1) LLMは元の不確かさを低く保ち, 多くの場合, 半減期以下であり, 2) LLMは隣接レベル間のニュアンスの違いに悩まされることがわかった。
この研究は、標準的な評価指標によって捉えられていない障害モードを明らかにし、臨床ワークフローにおけるLLMの安全なデプロイに影響を及ぼす。
関連論文リスト
- Beyond Scalar Scores: Exploring LLM-based Metrics for Clinical Significance Evaluation in Radiology Reports [49.5225801722164]
既存のメトリクスは、医学的に根拠のないスカラーにレポートの品質を低下させることによって、この要件を曖昧にしている。
テストベッドとしてReEvalMedベンチマークを用いて,この境界について検討し,計量レベルの臨床的意義を評価する。
論文 参考訳(メタデータ) (2026-06-17T08:10:30Z) - When Large Language Models Fail in Healthcare: Evaluating Sensitivity to Prompt Variations [1.0152838128195467]
大規模言語モデル (LLMs) は、臨床質問応答、診断支援、報告要約などのタスクのために医療でますます使われている。
彼らの約束にもかかわらず、これらのモデルは語彙的および構文的両方の微妙な急激な摂動に対して非常に敏感であり、安全クリティカルな臨床応用に重大なリスクをもたらす。
摂動を自然型, 逆型に分類し, モデル整合性, 精度, 信頼性に及ぼす効果について検討した。
論文 参考訳(メタデータ) (2026-06-05T13:07:11Z) - Mapping Clinical Doubt: Locating Linguistic Uncertainty in LLMs [4.360255198498071]
本研究は,医学テキストにおける言語的不確実性に対する入力側表現感度について検討する。
不確実性に対するモデル感度(MSU)は,不確実性によって誘導されるアクティベーションレベルシフトを階層的に推定する指標である。
論文 参考訳(メタデータ) (2025-11-27T12:26:06Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Toward Reliable Clinical Coding with Language Models: Verification and Lightweight Adaptation [3.952186976672079]
本稿では,高速エンジニアリングや小型微調整を含む軽量な介入により,探索手法の計算オーバーヘッドを伴わずに精度を向上できることを示す。
階層的なニアミスエラーに対処するために,単体タスクとパイプラインコンポーネントの両方に臨床コード検証を導入する。
論文 参考訳(メタデータ) (2025-10-08T23:50:58Z) - Embeddings to Diagnosis: Latent Fragility under Agentic Perturbations in Clinical LLMs [0.0]
本稿では, 臨床用LDMの潜在ロバスト性について, 構造的対向編集による検討を行うLAPD (Latent Agentic Perturbation Diagnostics) を提案する。
本フレームワークでは,PCA-Reduced Latent Spaceにクロス決定境界を埋め込む際に,表現不安定性を捉えるモデルに依存しない診断信号であるLatent Diagnosis Flip Rate (LDFR)を導入する。
その結果, 表面の堅牢性とセマンティック安定性の間には, 安全クリティカルな臨床AIにおける幾何学的監査の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-07-27T16:48:53Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - FactEHR: A Dataset for Evaluating Factuality in Clinical Notes Using LLMs [3.919419934122265]
FactEHRは,3つの病院システムから4つの病院システムにまたがる2,168件の臨床記録の文書的事実分解からなるNLIデータセットである。
我々は, LLMの細部評価から定性解析まで, 異なる軸上の生成事実を評価する。
その結果、臨床テキストの事実検証を支援するため、LCM機能の改善の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2024-12-17T00:07:05Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。