論文の概要: Curation of a Cardiology Interface Terminology for Highlighting Electronic Health Records using Machine Learning
- arxiv url: http://arxiv.org/abs/2606.08311v1
- Date: Sat, 06 Jun 2026 19:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.036748
- Title: Curation of a Cardiology Interface Terminology for Highlighting Electronic Health Records using Machine Learning
- Title(参考訳): 機械学習を用いた電子健康記録の高輝度化のための心臓科インタフェースターミノロジーのキュレーション
- Authors: Mahshad Koohi Habibi Dehkordi, Shuxin Zhou, Yehoshua Perl, Fadi P. Deek, James Geller, Gai Elhanan, Andrew J. Einstein, Luke Lindemann, Vipina K. Keloth,
- Abstract要約: EHRのすべての詳細をハイライトすることは、重要なコンテンツに注意を向けることで、欠落する重要な情報の可能性を減らすのに役立つ。
本研究は, 循環器科患者の EHR ノートにおいて, 詳細を正確に強調するためのCIT (Cardiology Interface Terminology) の設計を提案する。
最初の2つのフェーズでは、第3のフェーズであるML技術で使用されるトレーニングデータCITを革新的に導出します。
- 参考スコア(独自算出の注目度): 0.8523566752935628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Electronic health record (EHR) notes are dense medical documents containing large amounts of information, often filled with complex medical jargon. Highlighting all details in EHRs helps reduce the likelihood of missing crucial information by drawing attention to key content. This study proposes the design of a Cardiology Interface Terminology (CIT) to accurately highlight all details in EHR notes of cardiology patients. We introduce an innovative Machine Learning (ML) technique for the design of CIT. The ML technique requires training data. Manual preparation of such training data is time-consuming and expensive. The process of the CIT design includes three phases. In the first two phases, we innovatively derive a training data CIT to be used by the third phase, ML technique. We start by designing an initial CIT, composed of several components: the cardiology-related sub-hierarchies of SNOMED, other SNOMED concepts mined from EHRs of build set, and necessary components of terms e.g., medical abbreviations and medications. Utilizing an iterative process, fine-grained phrases containing initial CIT concepts are extracted from build set as CIT concept candidates. The candidate concepts are semi-automatically reviewed before being added to CIT, yielding the training data CIT, TCIT. In the third phase, a ML model is trained with TCIT to identify candidates fitting to be concepts in the CIT. This model is used to extract further concepts from build set, yielding the final CIT. The final CIT is then used to highlight the test set and evaluate the extent to which it captures details in an unseen EHR dataset. For this purpose, four evaluation metrics, coverage, breadth, completeness, and conciseness are used. The highlighted test set has a coverage of 74.21%, with a breadth of 1.68. For 20 random notes in test set, the average completeness is 98.2% and average conciseness is 84.2%.
- Abstract(参考訳): エレクトロニック・ヘルス・レコーズ(EHR)は、大量の情報を含む複雑な医療文書であり、しばしば複雑な医療用ジャーゴンで満たされる。
EHRのすべての詳細をハイライトすることは、重要なコンテンツに注意を向けることで、欠落する重要な情報の可能性を減らすのに役立つ。
本研究は, 循環器科患者の EHR ノートにおいて, 詳細を正確に強調するためのCIT (Cardiology Interface Terminology) の設計を提案する。
CITの設計に革新的な機械学習(ML)技術を導入する。
ML技術はトレーニングデータを必要とする。
このようなトレーニングデータの手作業による準備には時間と費用がかかる。
CIT設計のプロセスには3つのフェーズが含まれる。
最初の2段階では、第3フェーズのML技術で使用されるトレーニングデータCITを革新的に導出する。
まず, SNOMED の心臓学関連サブ階層, ビルドセットの EHR から抽出した他の SNOMED 概念, 用語, 略語, 薬品など, いくつかの要素からなる初期 CIT を設計することから始める。
反復的プロセスを用いて、初期CIT概念を含むきめ細かいフレーズを、ビルドセットからCIT概念候補として抽出する。
候補概念は、CITに追加する前に半自動でレビューされ、トレーニングデータCIT, TCITが生成される。
第3フェーズでは、MLモデルをTCITでトレーニングし、CITの概念に適合する候補を特定する。
このモデルはビルドセットからさらに概念を抽出するために使用され、最終的なCITが得られる。
次に、最後のCITを使用して、テストセットをハイライトし、目に見えないEHRデータセットで詳細をキャプチャする範囲を評価する。
この目的のために、カバレッジ、幅、完全性、簡潔さの4つの評価指標が使用される。
ハイライトされたテストセットのカバレッジは74.21%で、幅は1.68である。
テストセットにおける20のランダムノートの場合、平均完全度は98.2%、平均簡潔度は84.2%である。
関連論文リスト
- DR.EHR: Dense Retrieval for Electronic Health Record with Knowledge Injection and Synthetic Data [2.9929405444223205]
EHRは臨床実践において重要な役割を担っているが、その検索は主に意味的ギャップの問題によって困難である。
近年の高密度検索の進歩は有望なソリューションを提供するが、医療知識の不足やトレーニングコーパスのミスマッチにより、一般ドメインとバイオメディカルドメインの両方の既存のモデルは不足している。
本稿では,EHR検索に適した高密度検索モデルであるtexttDR.EHRを紹介する。
論文 参考訳(メタデータ) (2025-07-24T17:02:46Z) - KDH-MLTC: Knowledge Distillation for Healthcare Multi-Label Text Classification [4.8342038441006805]
本研究は、医療用多ラベルテキスト分類(KDH-MLTC)における知識蒸留について述べる。
提案手法は,知識蒸留と逐次微調整を統合することで,従来の医療用マルチラベルテキスト分類の課題に対処する。
3つの医学文献データセットを用いて実験を行った結果、KDH-MLTCは既存の手法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2025-05-12T00:58:25Z) - EHRmonize: A Framework for Medical Concept Abstraction from Electronic Health Records using Large Language Models [21.637722557192482]
EHRデータから医療概念を抽象化するために,大規模言語モデルを活用するフレームワークであるEHRmonizeを紹介する。
本研究は,2つの自由テキスト抽出と6つのバイナリ分類タスクにおいて,実世界のEHRデータベースからの薬物データを用いて5つのLSMを評価する。
GPT-4oはジェネリックルート名同定において97%,ジェネリックドラッグ名では82%,抗生物質のバイナリ分類では100%の精度を達成した。
論文 参考訳(メタデータ) (2024-06-28T21:39:20Z) - SNOBERT: A Benchmark for clinical notes entity linking in the SNOMED CT clinical terminology [43.89160296332471]
本稿では,BERT モデルを用いた SNOMED CT のテキストスパンと特定の概念をリンクする手法を提案する。
本手法は, 候補選択と候補マッチングの2段階からなる。これらのモデルは, ラベル付き臨床ノートの公開データセットの中で, 最大規模で訓練された。
論文 参考訳(メタデータ) (2024-05-25T08:00:44Z) - Effective Matching of Patients to Clinical Trials using Entity
Extraction and Neural Re-ranking [8.200196331837576]
臨床試験(CT)は、不十分な患者募集のために失敗することが多い。
本稿では,患者と医療のパラダイムに対処するアプローチを提案することによって,CT検索の課題に取り組む。
論文 参考訳(メタデータ) (2023-07-01T16:42:39Z) - 2021 BEETL Competition: Advancing Transfer Learning for Subject
Independence & Heterogenous EEG Data Sets [89.84774119537087]
我々は、診断とBCI(Brain-Computer-Interface)に関する2つの伝達学習課題を設計する。
第1タスクは、患者全体にわたる自動睡眠ステージアノテーションに対処する医療診断に重点を置いている。
タスク2はBrain-Computer Interface (BCI)に集中しており、被験者とデータセットの両方にわたる運動画像のデコードに対処する。
論文 参考訳(メタデータ) (2022-02-14T12:12:20Z) - Distantly supervised end-to-end medical entity extraction from
electronic health records with human-level quality [77.34726150561087]
本稿では,電子健康記録(EHR)から医療用脳波を単一段階のマルチラベル分類タスクとして行う新しい手法を提案する。
我々のモデルは、医療知識ベースから自動的に抽出されたターゲットを用いて、遠距離から教師付きでエンドツーエンドに訓練されている。
我々の研究は、十分な量の未ラベルのEHRと医療知識ベースが利用できることを考えると、人間の監督なく、人的品質で、医療機関の抽出をエンドツーエンドで行えることを実証している。
論文 参考訳(メタデータ) (2022-01-25T17:04:46Z) - CEHR-BERT: Incorporating temporal information from structured EHR data
to improve prediction tasks [0.0]
我々は、ハイブリッドアプローチを用いて時間情報を組み込む新しいBERT適応CEHR-BERTを開発した。
CEHR-BERTはコロンビア大学アーヴィング医療センター-ヨーク長老派病院の臨床データのサブセットで訓練された。
論文 参考訳(メタデータ) (2021-11-10T16:53:32Z) - BiteNet: Bidirectional Temporal Encoder Network to Predict Medical
Outcomes [53.163089893876645]
本稿では,患者の医療旅行におけるコンテキスト依存と時間的関係を捉える,新たな自己注意機構を提案する。
エンド・ツー・エンドの双方向時間エンコーダネットワーク(BiteNet)が患者の旅路の表現を学習する。
実世界のEHRデータセットを用いた2つの教師付き予測と2つの教師なしクラスタリングタスクにおける手法の有効性を評価した。
論文 参考訳(メタデータ) (2020-09-24T00:42:36Z) - DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment
Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。
DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文 参考訳(メタデータ) (2020-01-22T17:51:25Z) - Opportunities and Challenges of Deep Learning Methods for
Electrocardiogram Data: A Systematic Review [62.490310870300746]
心電図(Electrocardiogram、ECG)は、医学および医療において最も一般的に用いられる診断ツールの1つである。
深層学習法は心電図信号を用いた予測医療タスクにおいて有望な結果を得た。
本稿では、モデリングとアプリケーションの観点から、ECGデータに対するディープラーニング手法の体系的なレビューを行う。
論文 参考訳(メタデータ) (2019-12-28T02:44:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。