論文の概要: Advancing the State-of-the-Art in Empirical Privacy Auditing
- arxiv url: http://arxiv.org/abs/2606.10481v1
- Date: Tue, 09 Jun 2026 06:50:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.359444
- Title: Advancing the State-of-the-Art in Empirical Privacy Auditing
- Title(参考訳): 実証的プライバシー監査における現状の整備
- Authors: Nicole Mitchell, Galen Andrew, Arun Ganesh, Brendan McMahan, Peter Kairouz,
- Abstract要約: 経験的プライバシー監査は、メンバーシップ推論(MI)やリコンストラクションアタックの現実的なデータ漏洩を測定する。
EPAの主な課題は、プライバシーに敏感なトレーニングデータと混ざったカナリアの例を設計することだ。
高温サンプリングによる合成カナリアの生成を提案する。
- 参考スコア(独自算出の注目度): 21.545624969554996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient fine-tuning of large language models (LLMs) can exhibit problematic memorization of individual training examples. Empirical privacy auditing (EPA) quantifies this risk by measuring realistic data leakage on membership inference (MI) or reconstruction attacks. A key challenge in EPA is designing ``canary'' examples that are mixed with the privacy-sensitive training data. We propose generating synthetic canaries via high-temperature sampling ($T \geq 0.8$) from LLMs, using prompts tailored to the privacy-sensitive training data. These canaries act as high-influence outliers, ensuring high identifiability and hence strong audits. Further, since the canaries are themselves non-private, they are inspectable and can be inserted with repetition without jeopardizing the privacy of the real data. An important use of models fine-tuned on privacy-sensitive data is the generation of synthetic data. This also comes with privacy risk. We introduce a powerful synthetic data audit based on fine-tuning an auxiliary model on the synthetic data. Auditing the auxiliary model for the original canaries then provides a strong estimate of the privacy leakage through the synthetic data. Finally, leveraging our strong auditing methodologies, we perform a systematic investigation into the interacting effects of model capacity and canary entropy on memorization.
- Abstract(参考訳): 大規模言語モデル(LLM)のパラメータ効率の良い微調整は、個別の訓練例の記憶に問題があることを示す。
経験的プライバシ監査(EPA)は、メンバシップ推論(MI)やリコンストラクション攻撃に基づく現実的なデータ漏洩を測定することで、このリスクを定量化する。
EPAの重要な課題は、プライバシに敏感なトレーニングデータと混ざった‘カナリア’の例を設計することだ。
本稿では,LLMから高温サンプリング(T \geq 0.8$)による合成カナリアの生成を提案する。
これらのカナリアは高影響のアウトリーチとして機能し、高い識別可能性と強い監査を保証する。
さらに、カナリア自体がプライベートではないため、検査可能であり、実際のデータのプライバシーを危険にさらすことなく繰り返し挿入することができる。
プライバシに敏感なデータに微調整されたモデルの重要な用途は、合成データの生成である。
これはプライバシーのリスクも伴う。
合成データに補助的なモデルを微調整した強力な合成データ監査を導入する。
元のカナリアの補助モデルを評価することで、合成データによるプライバシー漏洩を強く見積もる。
最後に, 強力な監査手法を活用し, モデル容量とカナリアエントロピーの相互作用が記憶に与える影響について, 系統的研究を行った。
関連論文リスト
- How to DP-fy Your Data: A Practical Guide to Generating Synthetic Data With Differential Privacy [52.00934156883483]
Differential Privacy(DP)は、情報漏洩を推論し、制限するフレームワークである。
Differentially Private Synthetic Dataは、ソースデータの全体的なトレンドを保存する合成データを指す。
論文 参考訳(メタデータ) (2025-12-02T21:14:39Z) - Synth-MIA: A Testbed for Auditing Privacy Leakage in Tabular Data Synthesis [8.4361320391543]
タブラル生成モデルは、トレーニングデータに似た合成データセットを作成することによって、プライバシを保護するとしばしば主張される。
会員推論攻撃(MIA)は、最近、合成データのプライバシー漏洩を評価する方法として登場した。
合成データセットの最大プライバシー漏洩を推定するために、攻撃の集合をデプロイする統一的モデルに依存しない脅威フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T16:53:38Z) - The Canary's Echo: Auditing Privacy Risks of LLM-Generated Synthetic Text [23.412546862849396]
我々は、敵がLarge Language Models(LLMs)によって生成された合成データにアクセス可能であると仮定する。
我々は、データ合成に使用されるLPMを微調整するために使用されるトレーニングデータをターゲットに、メンバーシップ推論攻撃(MIA)を設計する。
モデルに基づくMIAのために作られたカナリアは、合成データのみを公開する場合、プライバシー監査のサブ最適化であることがわかった。
論文 参考訳(メタデータ) (2025-02-19T15:30:30Z) - Defining 'Good': Evaluation Framework for Synthetic Smart Meter Data [14.779917834583577]
スマートメーターデータセットのプライバシーリスクを評価するには,標準プライバシ攻撃手法が不十分であることを示す。
本稿では,トレーニングデータを不確実なアウトレーラで注入し,それらのアウトレーラに直接プライバシ攻撃を発生させる手法を提案する。
論文 参考訳(メタデータ) (2024-07-16T14:41:27Z) - Achilles' Heels: Vulnerable Record Identification in Synthetic Data
Publishing [9.061271587514215]
合成データパブリッシングのための原則付き脆弱なレコード識別手法を提案する。
データセットやジェネレータ間で,従来のアドホック手法よりも優れていることを示す。
合成データジェネレータを差分的にプライベートにすると、脆弱性のあるレコードを正確に識別できることが示される。
論文 参考訳(メタデータ) (2023-06-17T09:42:46Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。