論文の概要: TRIAGE: Dialectical Reasoning for Explainable Risk Prediction on Irregularly Sampled Medical Time Series with LLMs
- arxiv url: http://arxiv.org/abs/2606.09030v1
- Date: Mon, 08 Jun 2026 04:53:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.703223
- Title: TRIAGE: Dialectical Reasoning for Explainable Risk Prediction on Irregularly Sampled Medical Time Series with LLMs
- Title(参考訳): TRIAGE:LLMを用いた不規則サンプリング医療時系列における説明可能なリスク予測のための辞書推論
- Authors: Hyeongwon Jang, Gyouk Chu, Changhun Kim, Joonhyung Park, Hangyul Yoon, Eunho Yang,
- Abstract要約: 競合する臨床結果に対する弁証的推論を生成するために, LLM を訓練するフレームワーク TRIAGE を提案する。
3つのISMTSベンチマークで評価され、TRIAGEは平均AUPRCの改善を3.3%達成し、キャリブレーションエラーを81%削減した。
- 参考スコア(独自算出の注目度): 38.333764111610044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clinical early warning systems built on electronic health records, in which clinical observations are recorded as irregularly sampled medical time series (ISMTS), must deliver both calibrated risk scores for patient triage and interpretable rationales that clinicians can verify. Large Language Models (LLMs) have been explored for this task, yet they collapse graded clinical risk into overconfident binary predictions. This risk polarization undermines both calibration and cross-patient comparability. To address this, we propose TRIAGE, a framework that trains an LLM to generate dialectical reasoning over competing clinical outcomes by eliciting outcome-specific rationales. This dialectical formulation mitigates risk polarization, enabling a single LLM to yield continuous risk scores grounded in explicit clinical reasoning. Evaluated on three ISMTS benchmarks, TRIAGE achieves an average AUPRC improvement of 3.3% and reduces calibration error by 81% compared to the competitive baselines. An LLM-as-a-judge assessment further shows that our rationales surpass post-hoc explanations from the baseline by 20% in clinical reasoning quality. The source code is available at https://github.com/HyeongWon-Jang/TRIAGE .
- Abstract(参考訳): 電子的健康記録に基づく早期警戒システムでは、臨床観察を不規則にサンプリングされた医療時系列(ISMTS)として記録し、患者トリアージのための校正されたリスクスコアと、臨床医が検証できる解釈可能な合理性の両方を提供する必要がある。
この課題に対して大規模言語モデル (LLM) が検討されてきたが, 臨床リスクを過信なバイナリー予測に分解する。
このリスク偏極は、校正と患者間の互換性の両方を損なう。
そこで本研究では, LLM を訓練して, 結果特異的な理性を引き出すことによって, 競合する臨床結果に対する弁証的推論を生成するフレームワーク TRIAGE を提案する。
この弁証的定式化はリスク偏極を緩和し、単一のLSMが明確な臨床理由に基づく継続的なリスクスコアを得ることを可能にする。
3つのISMTSベンチマークで評価され、TRIAGEは平均AUPRCの改善を3.3%達成し、競合するベースラインと比較してキャリブレーション誤差を81%削減した。
LLM-as-a-judgeアセスメントでは,臨床理由付けの精度が,基準値から20%を超えることが示唆された。
ソースコードはhttps://github.com/HyeongWon-Jang/TRIAGE で公開されている。
関連論文リスト
- Auditing Multimodal LLM Raters: Central Tendency Bias in Clinical Ordinal Scoring [2.835587889687748]
マルチモーダル大言語モデル (LLM) は, 臨床環境において, 自動評価器として研究されている。
ロック描画テスト(CDT)画像の評価のための教師付きディープラーニングモデルに対して、3つのフロンティアLLMファミリーをベンチマークした。
NLP評価から臨床評価まで, LLM-as-a-judge バイアスの文献を拡張した。
論文 参考訳(メタデータ) (2026-05-11T15:37:24Z) - CURA: Clinical Uncertainty Risk Alignment for Language Model-Based Risk Prediction [10.129412789850239]
本稿では,臨床用LMに基づくリスク推定と,個々のエラー確率とコホートレベルのあいまいさを一致させる枠組みを提案する。
MIMIC-IV 臨床リスク予測タスクの実験では、CURA は差別を実質的に損なうことなくキャリブレーションの指標を一貫して改善している。
論文 参考訳(メタデータ) (2026-04-16T05:58:37Z) - Benchmarking Multi-turn Medical Diagnosis: Hold, Lure, and Self-Correction [72.89352076103889]
大規模言語モデル (LLM) は, 臨床情報がすべて一ターンで提供される場合に, 高い精度で診断を行う。
1,035例からなる高忠実多ターン診断ベンチマークであるMINTを導入する。
診断決定に大きな影響を及ぼす3つの永続的な行動パターンを明らかにする。
論文 参考訳(メタデータ) (2026-04-06T00:23:10Z) - PREBA: Surgical Duration Prediction via PCA-Weighted Retrieval-Augmented LLMs and Bayesian Averaging Aggregation [51.96735866702332]
PreBAはPCA重み付き検索とベイズ平均アグリゲーションを統合した検索拡張フレームワークである。
例えば、PreBAはパフォーマンスを大幅に改善し、MAEを最大40%削減し、ゼロショット推論でR2を-0.13から0.62に引き上げる。
論文 参考訳(メタデータ) (2026-02-27T07:19:23Z) - Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。
提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。
本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文 参考訳(メタデータ) (2026-02-27T04:49:01Z) - LiveMedBench: A Contamination-Free Medical Benchmark for LLMs with Automated Rubric Evaluation [22.211535340726073]
LiveMedBenchは、オンライン医療コミュニティからリアルな臨床ケースを抽出する、継続的に更新されたベンチマークである。
LiveMedBenchは、38の専門医と複数の言語にまたがる2,756の現実世界のケースで構成され、16,702のユニークな評価基準と組み合わせている。
大規模な評価では、最高のパフォーマンスモデルでさえ39.2%しか達成せず、84%のモデルがカット後のケースで性能劣化を示す。
論文 参考訳(メタデータ) (2026-02-10T23:38:25Z) - Conformal Lesion Segmentation for 3D Medical Images [82.92159832699583]
本稿では,データ駆動しきい値の校正をコンフォーマル化することで,テスト時間FNRが目標許容値以下であることを保証する,リスク制約付きフレームワークを提案する。
5つのバックボーンモデルにまたがる6つの3D-LSデータセット上でのCLSの統計的健全性と予測性能を検証し,臨床実践におけるリスク認識セグメンテーションの展開に関する実用的な知見を得た。
論文 参考訳(メタデータ) (2025-10-19T08:21:00Z) - LLM-Augmented Symptom Analysis for Cardiovascular Disease Risk Prediction: A Clinical NLP [2.2615384250361004]
本研究は, 症状抽出, 文脈推論, 自由テキストレポートからの相関に, ドメイン適応型大言語モデルを用いた, 新規なLLM拡張臨床NLPパイプラインを提案する。
MIMIC-IIIおよびCARDIO-NLPデータセットの評価は、精度、リコール、F1スコア、AUROCにおいて高い臨床関連性を示した。
論文 参考訳(メタデータ) (2025-07-15T07:32:16Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。