論文の概要: PSyGenTAB: A Privacy-Preserving Framework for Synthetic Clinical Tabular Data Generation via Constrained Optimization
- arxiv url: http://arxiv.org/abs/2606.18518v1
- Date: Tue, 16 Jun 2026 22:14:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.912617
- Title: PSyGenTAB: A Privacy-Preserving Framework for Synthetic Clinical Tabular Data Generation via Constrained Optimization
- Title(参考訳): PSyGenTAB:制約付き最適化による臨床タブラリデータ生成のためのプライバシ保護フレームワーク
- Authors: Arshia Ilaty, Hossein Shirazi, Manasi Chitale, Kedar Hegde, Dhanalakshmi Ramesh, Rashmi S. Manjunath, Amir Rahmani, Hajar Homayouni,
- Abstract要約: 人工医療データにおけるプライバシ保護と臨床ユーティリティのバランスをとるためのフレームワークであるPSyGenTABを提案する。
PSyGenTABは、臨床データユーティリティを最大化しながら、最小限のプライバシー閾値を強制する。
下流評価は、合成データに基づいてトレーニングされたモデルが、実際の患者記録でトレーニングされたモデルに匹敵するパフォーマンスを達成することを示している。
- 参考スコア(独自算出の注目度): 1.9205944025326402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of medical AI is constrained by limited access to high-quality clinical data due to institutional silos and strict privacy regulations such as HIPAA and GDPR. Synthetic data generation offers a potential solution, but existing methods lack principled mechanisms to explicitly manage the privacy-utility trade-off, often degrading clinically meaningful patterns or risking patient re-identification. We present PSyGenTAB, a privacy-preserving generative framework that formulates synthetic healthcare data generation as a constrained optimization problem solved using the Augmented Lagrangian Method. By embedding configurable privacy constraints directly into model training, PSyGenTAB enforces minimum privacy thresholds while maximizing clinical data utility. Across multiple clinically motivated benchmarks, PSyGenTAB preserves inter-feature clinical relationships and minority-class diagnostic patterns essential for reliable health AI. Downstream evaluation using Train-on-Synthetic, Test-on-Real and Train-on-Real, Test-on-Synthetic protocols shows that models trained on synthetic data achieve performance comparable to those trained on real patient records. Privacy auditing further demonstrates reduced exact record reproduction and strong resilience to membership inference attacks. These results establish PSyGenTAB as a principled framework for balancing privacy protection and clinical utility in synthetic healthcare data, supporting secure cross-institutional AI development.
- Abstract(参考訳): 医療用AIの開発は、制度的なサイロやHIPAAやGDPRといった厳格なプライバシー規制により、高品質な臨床データへのアクセスが制限されている。
合成データ生成は潜在的な解決策を提供するが、既存の方法は、プライバシとユーティリティのトレードオフを明示的に管理するための原則的なメカニズムがなく、しばしば臨床的に意味のあるパターンを劣化させ、患者の再識別を危険にさらす。
我々は、Augmented Lagrangian Methodを用いて解決された制約付き最適化問題として、合成医療データ生成を定式化するプライバシー保護型生成フレームワークPSyGenTABを提案する。
設定可能なプライバシ制約を直接モデルトレーニングに組み込むことで、PSyGenTABは、臨床データユーティリティを最大化しながら、最小限のプライバシしきい値を強制する。
PSyGenTABは、複数の臨床的動機付けられたベンチマークで、機能間臨床関係と信頼性の高い健康AIに必要な少数クラスの診断パターンを保存している。
Train-on-Synthetic, Test-on-Real, Train-on-Real, Test-on-Syntheticプロトコルを用いた下流評価では、合成データでトレーニングされたモデルが、実際の患者記録でトレーニングされたモデルに匹敵するパフォーマンスを達成することが示された。
プライバシ監査はさらに、正確なレコード再生の削減と、メンバシップ推論攻撃に対する強いレジリエンスを示す。
これらの結果から、PSyGenTABは、医療データにおけるプライバシ保護と臨床ユーティリティのバランスをとるための原則的フレームワークとして確立され、セキュアな機関間AI開発をサポートする。
関連論文リスト
- Reinforcement-Guided Synthetic Data Generation for Privacy-Sensitive Identity Recognition [60.52810518437911]
高忠実度生成モデルは、プライバシーに敏感なシナリオでますます必要とされている。
限られたデータによって生成モデルは貧弱になり、データ不足を軽減できない。
汎用ドメイン生成の先行を識別タスクに適応させる,強化誘導型合成データ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-09T06:52:03Z) - DISCO-TAB: A Hierarchical Reinforcement Learning Framework for Privacy-Preserving Synthesis of Complex Clinical Data [2.3915781021862332]
DISCO-TABは、Reinforcement Learningによって最適化された多目的識別器システムを用いて、微調整LDMをオーケストレーションする新しいフレームワークである。
私たちは、高次元の小さな医療データセットを含むさまざまなベンチマークで、私たちのフレームワークを厳格に検証しています。
以上の結果から, 階層的フィードバックは最先端の成果をもたらすことが示され, 下流の臨床的有用性は最大38.2%向上した。
論文 参考訳(メタデータ) (2026-04-01T23:37:58Z) - Privacy-Preserving Generative Modeling and Clinical Validation of Longitudinal Health Records for Chronic Disease [1.334430331852034]
我々は,現在最先端の時系列生成モデルを強化し,定量的なプライバシ保護を取り入れつつ,経時的臨床データをよりよく処理する。
我々の非プライベートモデル(Augmented TimeGAN)は、いくつかのデータセットにおける統計メトリクスのトランスフォーマーおよびフローベースモデルよりも優れています。
我々のプライベートモデル(DP-TimeGAN)は、CKDデータセットにおける平均信頼度0.778を維持し、プライバシユーティリティフロンティアにおける既存の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2025-11-29T10:16:14Z) - A Robust Pipeline for Differentially Private Federated Learning on Imbalanced Clinical Data using SMOTETomek and FedProx [0.0]
Federated Learning (FL)は、共同健康研究のための画期的なアプローチである。
FLは、差分プライバシー(DP)と組み合わせて正式なセキュリティ保証を提供する
プライバシーユーティリティフロンティアで最適な運用領域が特定された。
論文 参考訳(メタデータ) (2025-08-06T20:47:50Z) - Generating Clinically Realistic EHR Data via a Hierarchy- and Semantics-Guided Transformer [0.0]
生成過程の新たなフレームワークとして階層型・意味型変換器(HiSGT)を提案する。
HiSGTは、親子関係と臨床コード間の兄弟関係をエンコードする階層グラフを構築し、階層認識の埋め込みを導出するためにグラフニューラルネットワークを使用する。
MIMIC-IIIおよびMIMIC-IVデータセットの実験により、HiSGTは実際の患者記録と合成データの統計的アライメントを大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-02-28T05:06:04Z) - Towards Privacy-aware Mental Health AI Models: Advances, Challenges, and Opportunities [58.61680631581921]
メンタルヘルス障害は、深い個人的・社会的負担を生じさせるが、従来の診断はリソース集約的でアクセシビリティが制限される。
本稿では、これらの課題を考察し、匿名化、合成データ、プライバシー保護トレーニングを含む解決策を提案する。
臨床的な意思決定をサポートし、メンタルヘルスの結果を改善する、信頼できるプライバシを意識したAIツールを進化させることを目標としている。
論文 参考訳(メタデータ) (2025-02-01T15:10:02Z) - Clinical Evaluation of Medical Image Synthesis: A Case Study in Wireless Capsule Endoscopy [63.39037092484374]
人工知能(AI)に基づく合成データ生成は、臨床医学の届け方を変えることができる。
本研究は,無線カプセル内視鏡(WCE)画像を用いた炎症性腸疾患(IBD)の診断における概念実証による医療用SDGの臨床評価に焦点を当てた。
その結果、TIDE-IIは、最先端の生成モデルと比較して品質が向上し、臨床的に可塑性で、非常に現実的なWCE画像を生成することがわかった。
論文 参考訳(メタデータ) (2024-10-31T19:48:50Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。
集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。
グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文 参考訳(メタデータ) (2020-12-10T13:56:00Z) - Hide-and-Seek Privacy Challenge [88.49671206936259]
NeurIPS 2020 Hide-and-Seek Privacy Challengeは、両方の問題を解決するための新しい2トラックの競争だ。
我々の頭から頭までのフォーマットでは、新しい高品質な集中ケア時系列データセットを用いて、合成データ生成トラック(「ヒッシャー」)と患者再識別トラック(「シーカー」)の参加者が直接対決する。
論文 参考訳(メタデータ) (2020-07-23T15:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。