論文の概要: EHR-Complex: Benchmarking Medical Agents for Complex Clinical Reasoning
- arxiv url: http://arxiv.org/abs/2606.23301v1
- Date: Mon, 22 Jun 2026 13:14:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:41:56.076261
- Title: EHR-Complex: Benchmarking Medical Agents for Complex Clinical Reasoning
- Title(参考訳): EHR-complex: 臨床治療薬のベンチマーク
- Authors: Yitong Qiao, Lei Liu, Yue Shen, Jian Wang, Jinjie Gu, Zhixuan Chu, Kui Ren,
- Abstract要約: 本稿では,インタラクティブな臨床データベース推論のための大規模ベンチマークであるEHR-Complexを紹介する。
大規模なMIMIC-IV基板(365K患者、31テーブル、500M+レコード)上に構築されたEHR-Complexは、6つの臨床目的にまたがる約52Kのタスクから構成される。
- 参考スコア(独自算出の注目度): 43.24946590588933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clinical agents promise to democratize access to electronic health records (EHRs), yet existing benchmarks fail to reflect the complexity of practical EHR analysis, e.g., often operating on idealized, clean EHRs via static SQL generation rather than interactive execution. In this work, we introduce EHR-Complex, a large-scale benchmark designed for interactive clinical database reasoning. Built on the large MIMIC-IV substrate (365K patients, 31 tables, 500M+ records), EHR-Complex comprises about 52K tasks spanning six clinical intents, supporting both patient-level and population-level queries, where each task requires an agent to interact with a sandboxed environment by executing SQL queries or Python code. Notably, EHR-Complex considers the real-world SQL task complexity for longitudinal multi-table aggregation and compositional reasoning, resulting in 31.93 SQL structural components per query on average. Evaluation results on EHR-Complex reveal the clinical difficulty of these EHR reasoning scenarios, with the top-performing model achieving only 62.3% exact-match accuracy. Pass^k consistency drops below 50% for nearly all evaluated models at k=4, exposing broad stochastic fragility. A fine-grained analysis of more than 3,800 failed trajectories for representative LLMs reveals three dominant failure modes: SQL logic errors, medical-code lookup failures, and semantic misunderstandings. EHR-Complex provides a rigorous testbed for clinical agents and highlights remaining gaps in robust reasoning for large-scale EHR analysis.
- Abstract(参考訳): 臨床エージェントは、電子健康記録(EHR)へのアクセスを民主化することを約束するが、既存のベンチマークは、インタラクティブな実行ではなく、静的なSQL生成を通じて、理想化されたクリーンなEHRを運用する、実用的なEHR分析の複雑さを反映していない。
本研究では,インタラクティブな臨床データベース推論のための大規模ベンチマークであるEHR-Complexを紹介する。
大規模なMIMIC-IV基板(365K患者、31テーブル、500M+レコード)上に構築されたEHR-Complexは、約52Kタスクで、6つの臨床目的にまたがる。
特に、EHR-Complexは、縦方向のマルチテーブルアグリゲーションとコンポジション推論のための現実のSQLタスクの複雑さを考えており、クエリごとのSQL構造コンポーネントの平均は31.93である。
EHR-コンプレックスの評価結果から、これらのEHR推論シナリオの難易度が明らかになり、トップパフォーマンスモデルは62.3%の精度しか達成できなかった。
Pass^kの一貫性は、k=4のほぼ全ての評価モデルに対して50%以下に低下し、広い確率的不安定性を示す。
代表的なLSMの3,800以上の障害トラジェクトリの詳細な分析では、SQLロジックエラー、医療コードルックアップ障害、セマンティック誤解の3つの主要な障害モードが明らかになった。
EHR-Complexは、臨床薬の厳格なテストベッドを提供し、大規模なEHR分析のための堅牢な推論において、残りのギャップを強調している。
関連論文リスト
- Evaluating Large Language Models in Dynamic Clinical Decision-Making with Standardized Patient Cases [71.12461204050985]
MedSP1000 (MedSP1000) は、SP由来の臨床エージェント評価のための対話型ベンチマークである。
ピアレビューされたSPの授業ケースを、定義されたSPケーススクリプト、臨床環境コンテキスト、人為的な構造化ルーブリックで実行可能なシナリオに変換する。
MedSP1000を多種多様な汎用および医療用LLMに適用すると、静的ベンチマークの性能がそのような教育シナリオに確実に変換されないことが分かる。
論文 参考訳(メタデータ) (2026-06-03T17:17:16Z) - Patient-Similarity Cohort Reasoning in Clinical Text-to-SQL [63.578576078216976]
CLINはMIMICIV v3.1の633のエキスパートアノテートタスクのベンチマークである。
我々はChain-of-Thoughtセルフリファインメントの下で22のプロプライエタリモデルとオープンソースモデルを評価した。
最近の進歩にもかかわらず、パフォーマンスは臨床的な信頼性には程遠い。
論文 参考訳(メタデータ) (2026-01-14T21:12:06Z) - From Conversation to Query Execution: Benchmarking User and Tool Interactions for EHR Database Agents [15.31222936637621]
EHR-ChatQAはデータベースエージェントのエンドツーエンドワークフローを評価する対話型データベース質問応答ベンチマークである。
エージェントはIncreQAで90-95%(少なくとも5つのトライアルのうちの1つ)、AdaptQAで60-80%、Pass5で35-60%、高いPass@5を達成する。
これらの結果は、パフォーマンスだけでなく、安全クリティカルなEHRドメインにも堅牢なエージェントを構築する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-09-27T17:13:51Z) - EHR-MCP: Real-world Evaluation of Clinical Information Retrieval by Large Language Models via Model Context Protocol [0.0]
大規模言語モデル (LLM) は医療における有望性を示すが、病院への展開は電子健康記録(EHR)システムへのアクセス制限によって制限される。
Model Context Protocol (MCP)は、LCMと外部ツールの統合を可能にする。
EHR-MCPは病院のERHデータベースと統合されたカスタムMPPツールのフレームワークで、GPT-4.1をLangGraph ReActエージェントを介して利用した。
論文 参考訳(メタデータ) (2025-09-19T13:17:16Z) - Real-world validation of a multimodal LLM-powered pipeline for High-Accuracy Clinical Trial Patient Matching leveraging EHR data [0.0]
臨床試験における患者採用は、複雑な資格基準と労働集約性チャートのレビューによって妨げられている。
EHRから抽出した未処理文書を用いて,患者と医療のマッチングを自動化する統合フリーのLLMパイプラインを提案する。
提案手法は,(1)最も複雑な基準の評価を可能にする新たな推論-LLMパラダイム,(2)画像からテキストへの変換を欠くことなく医療記録を解釈する最新のLCMの視覚的能力,(3)効率的な医療記録検索のためのマルチモーダル埋め込みを活用する。
論文 参考訳(メタデータ) (2025-03-19T16:12:11Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - COMPOSE: Cross-Modal Pseudo-Siamese Network for Patient Trial Matching [70.08786840301435]
本稿では, CrOss-Modal PseudO-SiamEse Network (COMPOSE) を提案する。
実験の結果,患者基準マッチングでは98.0%,患者基準マッチングでは83.7%の精度でAUCに到達できることがわかった。
論文 参考訳(メタデータ) (2020-06-15T21:01:33Z) - DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment
Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。
DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文 参考訳(メタデータ) (2020-01-22T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。