論文の概要: Accelerating Reproducible Research in Synthetic EHR Generation
- arxiv url: http://arxiv.org/abs/2606.06990v1
- Date: Fri, 05 Jun 2026 07:28:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.613154
- Title: Accelerating Reproducible Research in Synthetic EHR Generation
- Title(参考訳): 合成EHR生成における再生可能研究の加速
- Authors: Jalen Jiang, Chufan Gao, Ethan Rasmussen, Stephen Z. Xie, Jimeng Sun,
- Abstract要約: 再現可能な合成EHR評価のための軽量なエンドツーエンドベンチマークフレームワークを提案する。
現在の実装は、ICD診断コードの生成を目標としています。
厳密でアーキテクチャに依存しないプライバシ・ユーティリティ評価スイートをコントリビュートします。
- 参考スコア(独自算出の注目度): 15.020554967749996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generation of high-fidelity synthetic Electronic Health Records (EHR) is crucial for advancing medical research while preserving patient privacy. However, head-to-head comparison of existing generative models is hindered by disjointed codebases, incompatible data loaders, conflicting library dependencies, and inconsistent evaluation protocols. To address these gaps, we introduce a lightweight, end-to-end benchmarking framework for reproducible synthetic EHR evaluation, organized as a unified pipeline spanning data ingestion, standardized model training, and architecture-agnostic evaluation. Our current implementation targets the generation of longitudinal ICD diagnosis codes -- the most commonly studied modality in this literature -- and is built on the community-maintained PyHealth library. We reimplement and unify strong baselines (MedGAN, CorGAN, PromptEHR, HALO) under full ICD-9 vocabulary granularity, and add a lightweight GPT-2 baseline from the general-purpose sequence-modeling literature. We contribute a rigorous, architecture-agnostic privacy-utility evaluation suite that applies identically to GAN- and transformer-based generators, and report bootstrapped confidence intervals across all metrics. We further analyze the poor long-tailed performance of existing models and discuss the extensibility of our framework beyond diagnosis codes. By lowering the engineering barrier to running, extending, and evaluating under a single pipeline, we introduce a starting point for community-driven reproducibility and benchmarking synthetic EHR models.
- Abstract(参考訳): 高忠実性合成電子健康記録(EHR)の生成は、患者のプライバシーを維持しながら医学研究を進める上で不可欠である。
しかし、既存の生成モデルの直接比較は、不整合コードベース、互換性のないデータローダ、ライブラリ依存の矛盾、一貫性のない評価プロトコルによって妨げられている。
これらのギャップに対処するため、我々は、データの取り込み、標準化されたモデルトレーニング、アーキテクチャに依存しない評価にまたがる統一パイプラインとして組織された再現可能な合成EHR評価のための軽量なエンドツーエンドベンチマークフレームワークを導入しました。
現在の実装は、この文献でもっともよく研究されている、縦方向のICD診断コードの生成を目標としており、コミュニティが維持するPyHealthライブラリ上に構築されています。
ICD-9語彙の完全な粒度の下で,強いベースライン(MedGAN, CorGAN, PromptEHR, HALO)を再実装し, 汎用的なシーケンスモデリング文献から軽量なGPT-2ベースラインを付加する。
我々は、GANおよびトランスフォーマーベースのジェネレータと同一に適用可能な厳密でアーキテクチャに依存しないプライバシユーティリティ評価スイートを提供し、すべてのメトリクスに自己ストラップされた信頼区間を報告します。
さらに,既存モデルの長期性能の低さを解析し,診断コード以外のフレームワークの拡張性について議論する。
単一パイプラインで実行し、拡張し、評価するエンジニアリング障壁を低くすることで、コミュニティ主導の再現可能性の出発点を導入し、合成EHRモデルをベンチマークする。
関連論文リスト
- Unlocking Biological Workflows for Robust Protein-Text Question Answering: A Dual-Dimensional RAG Framework [60.82334952881798]
タンパク-テキスト質問回答(QA)は、自然言語による生物学的配列の解釈に不可欠である。
2D-ProteinRAGは,大規模言語モデル(LLM)を金本位生物研究ワークフロー内で動作させる新しいフレームワークである。
本研究では,2D-Proteinが常に最先端の性能を達成し,微調整ベースラインや他のRAG法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2026-05-17T05:03:24Z) - DISCO-TAB: A Hierarchical Reinforcement Learning Framework for Privacy-Preserving Synthesis of Complex Clinical Data [2.3915781021862332]
DISCO-TABは、Reinforcement Learningによって最適化された多目的識別器システムを用いて、微調整LDMをオーケストレーションする新しいフレームワークである。
私たちは、高次元の小さな医療データセットを含むさまざまなベンチマークで、私たちのフレームワークを厳格に検証しています。
以上の結果から, 階層的フィードバックは最先端の成果をもたらすことが示され, 下流の臨床的有用性は最大38.2%向上した。
論文 参考訳(メタデータ) (2026-04-01T23:37:58Z) - Procrustean Bed for AI-Driven Retrosynthesis: A Unified Framework for Reproducible Evaluation [0.0]
RetroCastは、異種モデルの出力を共通スキーマに標準化する統合評価スイートである。
我々は、新しい標準ベンチマークスイートを用いて、検索ベースおよびシーケンスベースの主要なアルゴリズムを評価する。
論文 参考訳(メタデータ) (2025-12-08T01:26:39Z) - Integrating Genomics into Multimodal EHR Foundation Models [56.31910745104141]
本稿では,ポリジェニックリスクスコア(PRS)を基本データモダリティとして統合した,革新的なEHR基盤モデルを提案する。
このフレームワークは、臨床データと遺伝子前置詞の複雑な関係を学習することを目的としている。
このアプローチは、病気の予測、積極的な健康管理、リスク階層化、パーソナライズされた治療戦略に対する新たな洞察を解放するために重要である。
論文 参考訳(メタデータ) (2025-10-24T15:56:40Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - CAAT-EHR: Cross-Attentional Autoregressive Transformer for Multimodal Electronic Health Record Embeddings [0.0]
本稿では,タスク非依存の縦埋め込みを生のEHRデータから生成する新しいアーキテクチャであるCAAT-EHRを紹介する。
自己回帰デコーダは、事前訓練中に将来の時刻データを予測してエンコーダを補完し、その結果の埋め込みが時間的整合性と整合性を維持する。
論文 参考訳(メタデータ) (2025-01-31T05:00:02Z) - Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - Diffusion-based Conditional ECG Generation with Structured State Space
Models [2.299617836036273]
我々は,70以上の心電図を用いた合成12誘導心電図作成のためのSSSD-ECGを提案する。
信頼性の低いベースラインが欠如しているため、2つの最先端非条件生成モデルの条件変種も提案する。
論文 参考訳(メタデータ) (2023-01-19T18:36:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。