論文の概要: Clinically Grounded Privacy Evaluation of Medical LMs
- arxiv url: http://arxiv.org/abs/2606.09590v1
- Date: Mon, 08 Jun 2026 15:02:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.363755
- Title: Clinically Grounded Privacy Evaluation of Medical LMs
- Title(参考訳): 医療用LMの臨床応用とプライバシ評価
- Authors: Sasha Ronaghi, Sana Tonekaboni, Lena Stempfle, Vivian Utti, Jordan Li Cahoon, Nathaniel Hendrix, Ayin Vala, Marzyeh Ghassemi, Emily Alsentzer,
- Abstract要約: 本稿では,対向アクセスの段階的軸に沿って漏洩を評価するための臨床基盤フレームワークを提案する。
このフレームワークを378k臨床ノートに事前トレーニングしたLMに適用すると,日常的な出会うメタデータは,動詞の暗記率が高いことが分かる。
- 参考スコア(独自算出の注目度): 14.192902006563045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical language models (LMs) can memorize and reproduce protected health information, but privacy evaluations often focus on recovery of training text rather than disclosure under realistic threat models. We introduce a clinically grounded framework that evaluates leakage along a graded axis of adversarial access, ranging from publicly inferable demographics to leaked note fragments. At each tier, we measure verbatim memorization of patient-specific text and semantic leakage of sensitive diagnoses. Applying the framework to an LM pretrained on 378k clinical notes, we find that routine encounter metadata (i.e. name, date of birth, provider, practice, visit date) elicits high rates of verbatim memorization across a patient's timeline and sensitive-diagnosis recovery (AUROC 0.91 for abortion, 0.81 for HIV). At the same time, exact-match memorization can overstate disclosure: 36% of memorized tokens reflect templated documentation. Our work highlights the risks of training on longitudinal clinical data, providing a practical framework for contextual privacy evaluation of medical LMs.
- Abstract(参考訳): 医療言語モデル(LM)は、保護された健康情報を記憶して再生することができるが、プライバシ評価は、現実的な脅威モデルの下での開示よりも、トレーニングテキストの回復に焦点を当てることが多い。
著者らは,公的な推測可能な人口統計から漏洩ノート断片まで,敵対的アクセスの段階的な軸に沿って漏洩を評価するための臨床基盤的枠組みを提案する。
各階層において,患者固有のテキストの動詞的暗記とセンシティブな診断のセマンティックリークを測定した。
このフレームワークを378k臨床ノートに事前トレーニングしたLMに適用すると、日常的な出会うメタデータ(名前、生年月日、プロバイダ、実践、訪問日)は患者のタイムラインをまたいだ口臭の覚醒率が高くなり、診断が敏感に回復する(中絶はAUROC 0.91、HIVは0.81)。
36%の暗記トークンはテンプレート化されたドキュメントを反映している。
本研究は,長期臨床データに対するトレーニングのリスクを強調し,医療用LMのコンテキストプライバシ評価のための実践的枠組みを提供する。
関連論文リスト
- An Investigation of Memorization Risk in Healthcare Foundation Models [21.94560578418064]
構造化されたEHRデータに基づいてトレーニングされた基礎モデルのプライバシー関連リスクを評価するためのブラックボックス評価テストスイートを導入する。
本フレームワークは, 組込みと生成の両レベルでの記憶の探索方法と, モデル一般化と有害記憶の区別を目的とした。
論文 参考訳(メタデータ) (2025-10-14T19:55:07Z) - Memorization in Large Language Models in Medicine: Prevalence, Characteristics, and Implications [42.69954853399731]
LLM(Large Language Models)は医学において大きな可能性を証明している。
医学におけるLSMの記憶の包括的評価について紹介する。
この結果は,すべての適応シナリオで記憶化が普及し,一般ドメインで報告されるよりもはるかに高いことを示す。
論文 参考訳(メタデータ) (2025-09-10T14:02:18Z) - DIRI: Adversarial Patient Reidentification with Large Language Models for Evaluating Clinical Text Anonymization [13.038800602897354]
本研究は, 大規模言語モデルを用いて患者を同定し, 臨床記録の再検討を行った。
本手法は, 臨床診断書に適合する患者を同定するために, 大規模言語モデルを用いている。
ClinicalBERTが最も有効であり, マスキングでPIIが同定できたが, 臨床記録の9%は再同定された。
論文 参考訳(メタデータ) (2024-10-22T14:06:31Z) - Retrieval-Augmented and Knowledge-Grounded Language Models for Faithful Clinical Medicine [68.7814360102644]
本稿では,Re$3$Writer法を提案する。
本手法が患者の退院指示生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T16:34:39Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Classifying Cyber-Risky Clinical Notes by Employing Natural Language
Processing [9.77063694539068]
近年、アメリカ合衆国内の一部の州では、患者が臨床ノートに自由にアクセスできるように求めている。
本研究は,臨床ノートにおけるセキュリティ・プライバシリスクの特定方法について検討する。
論文 参考訳(メタデータ) (2022-03-24T00:36:59Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。