論文の概要: Phantoms and Disclosures: a Causal Framework for Auditing Synthetic Data
- arxiv url: http://arxiv.org/abs/2606.16952v1
- Date: Mon, 15 Jun 2026 16:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.783446
- Title: Phantoms and Disclosures: a Causal Framework for Auditing Synthetic Data
- Title(参考訳): ファントムと開示: 合成データ監査のための因果的フレームワーク
- Authors: Kareem Amin, Rudrajit Das, Alessandro Epasto, Adel Javanmard, Dennis Kraft, Mónica Ribero, Sergei Vassilvitskii,
- Abstract要約: データ開示の検出と説明を目的とした,カスタマイズ可能な実証監査フレームワークを提案する。
本フレームワークでは,ユーザの情報を直接再現する「真の開示」と,ユーザのデータを偶発的に生成する「幻の開示」とを区別する機構を導入する。
- 参考スコア(独自算出の注目度): 56.86147283213652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid adoption of generative AI and Large Language Models (LLMs) has spurred interest in synthetic data as a privacy-preserving alternative to sensitive real-world datasets. However, generating high-utility synthetic data often carries the risk of memorizing and regurgitating private information from the training corpus. In this work, we present a customizable empirical auditing framework designed to detect and explain such data disclosures. Our framework introduces a mechanism to distinguish between "true disclosures"-where the system directly reproduces a user's information-and "phantom disclosures''-where the system incidentally generates a user's data. By partitioning input data into training and holdout sets and applying rigorous statistical hypothesis testing, we determine if observed disclosures are consistent with strict privacy baselines, such as zero-learning or specific Differential Privacy (DP) bounds. Crucially, this approach requires no model access, no canary insertion, and no reference model training -only the synthetic output and a held-out control set. We demonstrate that this framework effectively functions as a membership inference attack, providing empirical lower bounds on privacy leakage that are tighter than prior data-based auditing methods. Our approach is model-agnostic, applies to any synthetic data generation mechanism, and requires orders of magnitude fewer computational resources than shadow-model or canary-based alternatives.
- Abstract(参考訳): 生成AIとLarge Language Models(LLM)の急速な採用により、センシティブな現実世界のデータセットに対するプライバシ保護の代替手段として、合成データへの関心が高まっている。
しかし、高ユーティリティな合成データを生成すると、トレーニングコーパスから個人情報を記憶・取り消しするリスクが伴うことが多い。
本研究では,このようなデータ開示の検出と説明を目的とした,カスタマイズ可能な実証監査フレームワークを提案する。
本フレームワークでは,ユーザの情報を直接再現する「真の開示」と,システムが偶発的にユーザのデータを生成する「幻の開示」とを区別するメカニズムを導入する。
入力データをトレーニングとホールトアウトセットに分割し、厳密な統計的仮説テストを適用することにより、ゼロラーニングや特定の微分プライバシー(DP)境界などの厳密なプライバシーベースラインに一貫性があるかどうかを判断する。
重要なのは、このアプローチにはモデルアクセス、カナリア挿入、参照モデルトレーニング(合成出力とホールドアウト制御セットのみ)が不要である。
このフレームワークは,従来のデータに基づく監査手法よりも厳密なプライバシー漏洩を実証的に低く抑え,会員推測攻撃として効果的に機能することが実証された。
我々のアプローチはモデルに依存しず、どんな合成データ生成機構にも適用でき、シャドウモデルやカナリアベースの代替よりも桁違いに少ない計算資源を必要とする。
関連論文リスト
- Synth-MIA: A Testbed for Auditing Privacy Leakage in Tabular Data Synthesis [8.4361320391543]
タブラル生成モデルは、トレーニングデータに似た合成データセットを作成することによって、プライバシを保護するとしばしば主張される。
会員推論攻撃(MIA)は、最近、合成データのプライバシー漏洩を評価する方法として登場した。
合成データセットの最大プライバシー漏洩を推定するために、攻撃の集合をデプロイする統一的モデルに依存しない脅威フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T16:53:38Z) - Managing Correlations in Data and Privacy Demand [4.855689194518906]
ユーザデータとプライバシ要求の相関が許された場合に,標準HDPフレームワークが不足していることが示される。
本稿では,ユーザデータとプライバシの嗜好を両立させる代替フレームワークであるAdd-Remove Heterogeneous Differential Privacy (AHDP)を提案する。
論文 参考訳(メタデータ) (2025-09-02T22:03:13Z) - Privacy Auditing Synthetic Data Release through Local Likelihood Attacks [7.780592134085148]
遺伝子様比攻撃(Gen-LRA)
Gen-LRAは、サロゲートモデルによる合成データに対する局所確率比の推定において、テスト観測が与える影響を評価して攻撃を定式化する。
その結果、Gen-LRAは、合成データのリリースのためのプライバシ監査ツールとしての有効性を裏付けている。
論文 参考訳(メタデータ) (2025-08-28T18:27:40Z) - DATABench: Evaluating Dataset Auditing in Deep Learning from an Adversarial Perspective [70.77570343385928]
内的特徴(IF)と外的特徴(EF)(監査のための技術導入)に依存した既存手法の分類を新たに導入する。
回避攻撃(evasion attack)は、データセットの使用を隠蔽するために設計されたもので、偽造攻撃(forgery attack)は、未使用のデータセットを誤って含んでいることを意図している。
さらに,既存手法の理解と攻撃目標に基づいて,回避のための分離・除去・検出,偽造の逆例に基づく攻撃方法など,系統的な攻撃戦略を提案する。
私たちのベンチマークであるData dataBenchは、17の回避攻撃、5の偽攻撃、9の攻撃で構成されています。
論文 参考訳(メタデータ) (2025-07-08T03:07:15Z) - Simulation-based Bayesian Inference from Privacy Protected Data [0.0]
プライバシ保護されたデータセットからのシミュレーションに基づく推論手法を提案する。
本稿では,感染性疾患モデルと通常の線形回帰モデルに基づく個別時系列データについて述べる。
論文 参考訳(メタデータ) (2023-10-19T14:34:17Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。