論文の概要: EDEN: A Large-Scale Corpus of Clinical Notes for Italian
- arxiv url: http://arxiv.org/abs/2606.12569v1
- Date: Wed, 10 Jun 2026 18:21:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.399643
- Title: EDEN: A Large-Scale Corpus of Clinical Notes for Italian
- Title(参考訳): EDEN: イタリアの大規模臨床ノート
- Authors: Tiziano Labruna, Guido Bertolini, Pietro Ferrazzi, Bernardo Magnini,
- Abstract要約: EDEN(エデン)は、イタリアの救急医療機関で生産される、新しくてユニークな臨床ノートのコーパスである。
このデータセットは、具体的な医療アプリケーションにおけるLarge Language Modelsの使用をサポートすることのできる、関連するデータのギャップを埋めることを目的としている。
- 参考スコア(独自算出の注目度): 2.4925291034920587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present EDEN (Emergency Department Electronic Notes), a new and unique large-scale corpus of clinical notes produced in Emergency Departments of Italian hospitals. The corpus, in its current version, is composed of approximately 4 million clinical notes fully anonymized, covering diverse phases of patient care during the stay in the emergency department. In addition, a subset of about six thousand notes has been manually annotated by clinical experts through a structured Case Report Form (CRF) containing 132 items relevant for two patient situations in emergency departments, dyspnea and loss of consciousness. Items may assume numerical values (e.g., for blood saturation), categorical (e.g., for level of consciousness ), binary (e.g., for presence of traumas), and mixed value types. The annotation process involved multiple clinicians and underwent iterative revision to resolve ambiguities in item formulation, resulting in a richly structured (although high imbalanced) resource. The dataset aims to fill a relevant gap of data able to support both the development and the use of Large Language Models in concrete medical applications. We describe the data collection protocol, the on-site anonymisation pipeline, corpus statistics, and the annotation scheme. Finally, we propose CRF-filling as a novel structured information extraction benchmark, and provide zero-shot baseline resulting from Gemma-27B and MedGemma-27B. To the best of our knowledge, the EDEN dataset is the largest freely available corpus of clinical notes existing for the Italian language.
- Abstract(参考訳): 本報告では, イタリア病院救急部における臨床ノートの大規模コーパスであるEDEN(Emergency Department Electronic Notes)について紹介する。
コーパスの現在のバージョンでは、約400万の臨床ノートが完全匿名化され、救急医療のさまざまな段階をカバーしている。
さらに, 緊急時, 呼吸困難, 意識喪失などの2つの症状に関連する132項目を含む構造化症例報告書(CRF)を通じて, 臨床専門家によって約6万件のメモが手作業で注釈付けされている。
数値(例えば、血液飽和度)、カテゴリー(eg、意識レベル)、バイナリ(eg、外傷の有無)、混合値タイプを仮定することができる。
アノテーションのプロセスには複数の臨床医が関与し、項目の定式化の曖昧さを解決するために反復的な修正が行われ、結果として(高い不均衡な)資源が豊富に構造化された。
このデータセットは、具体的な医療アプリケーションにおける大規模言語モデルの開発と使用の両方をサポートすることのできる、関連するデータのギャップを埋めることを目的としている。
本稿では,データ収集プロトコル,オンサイト匿名化パイプライン,コーパス統計,アノテーションスキームについて述べる。
最後に,新しい構造化情報抽出ベンチマークとして CRF-filling を提案し,Gemma-27B と MedGemma-27B から得られるゼロショットベースラインを提供する。
我々の知る限り、EDENデータセットは、イタリア語で利用可能な臨床ノートの最大容量のコーパスである。
関連論文リスト
- PARHAF, a human-authored corpus of clinical reports for fictitious patients in French [3.8714930361784816]
PARHAFは、現実的で完全に架空の患者を記述した専門家による臨床報告を含む。
このコーパスには、幅広い医療・外科専門の5009人の患者を対象とする7394の臨床報告が含まれている。
ドキュメントはCC-BYのオープンライセンスの下でリリースされ、一部は一時的に禁止され、制御された条件下での将来のベンチマークを可能にする。
論文 参考訳(メタデータ) (2026-03-20T20:48:13Z) - CNSight: Evaluation of Clinical Note Segmentation Tools [3.673249612734457]
また,MIMIC-IVから得られた1000音符のキュレートデータセットを用いて,ルールベースベースベースライン,ドメイン固有トランスフォーマーモデル,および臨床ノートセグメンテーションのための大規模言語モデルの評価を行った。
GPT-5-miniは文レベルと自由テキストセグメンテーションで平均72.4のF1に達する。
論文 参考訳(メタデータ) (2025-12-28T05:40:15Z) - Improving Extraction of Clinical Event Contextual Properties from Electronic Health Records: A Comparative Study [2.0884301753594334]
本研究は,医学テキスト分類のための様々な自然言語モデルの比較分析を行う。
BERTはBi-LSTMモデルを最大28%、ベースラインのBERTモデルを最大16%上回り、マイノリティクラスをリコールする。
論文 参考訳(メタデータ) (2024-08-30T10:28:49Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Multimodal Pretraining of Medical Time Series and Notes [45.89025874396911]
ディープラーニングモデルは、意味のあるパターンを抽出する際の約束を示すが、広範囲なラベル付きデータが必要である。
本稿では,臨床測定値とノートのアライメントに着目し,自己指導型事前学習を用いた新しいアプローチを提案する。
病院内での死亡予測や表現型化などの下流タスクでは、データのごく一部がラベル付けされた設定において、ベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-12-11T21:53:40Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Estimating Redundancy in Clinical Text [6.245180523143739]
臨床医は、既存のメモを複製し、それに従って更新することで、新しい文書をポップアップさせる。
情報冗長性の定量化は、臨床物語を扱う革新を評価する上で重要な役割を果たす。
冗長性を測定するための2つの戦略として,情報理論アプローチと語彙論的・意味論的モデルを提示し,評価する。
論文 参考訳(メタデータ) (2021-05-25T11:01:45Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。