論文の概要: Natural Identifiers for Privacy and Data Audits in Large Language Models
- arxiv url: http://arxiv.org/abs/2606.24408v1
- Date: Tue, 23 Jun 2026 10:45:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.903924
- Title: Natural Identifiers for Privacy and Data Audits in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるプライバシとデータ監査のための自然識別器
- Authors: Lorenzo Rossi, Bartłomiej Marek, Franziska Boenisch, Adam Dziedzic,
- Abstract要約: この研究は、上記の課題に対する新しい解決策として自然識別子(NID)を導入している。
NIDは暗号化や短縮URLのような構造化されたランダム文字列であり、通常のトレーニングデータセットで自然に発生する。
評価の結果,NIDを使用すれば,再トレーニングを伴わずに,ポストホック後のプライバシー監査を円滑に行うことが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 21.60433884098629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assessing the privacy of large language models (LLMs) presents significant challenges. In particular, most existing methods for auditing differential privacy require the insertion of specially crafted canary data during training, making them impractical for auditing already-trained models without costly retraining. Additionally, dataset inference, which audits whether a suspect dataset was used to train a model, is infeasible without access to a private non-member held-out dataset. Yet, such held-out datasets are often unavailable or difficult to construct for real-world cases since they have to be from the same distribution (IID) as the suspect data. These limitations severely hinder the ability to conduct scalable, post-hoc audits. To enable such audits, this work introduces natural identifiers (NIDs) as a novel solution to the above-mentioned challenges. NIDs are structured random strings, such as cryptographic hashes and shortened URLs, naturally occurring in common LLM training datasets. Their format enables the generation of unlimited additional random strings from the same distribution, which can act as alternative canaries for audits and as same-distribution held-out data for dataset inference. Our evaluation highlights that indeed, using NIDs, we can facilitate post-hoc differential privacy auditing without any retraining and enable dataset inference for any suspect dataset containing NIDs without the need for a private non-member held-out dataset.
- Abstract(参考訳): 大きな言語モデル(LLM)のプライバシを評価することは、重大な課題である。
特に、差分プライバシーを監査するために既存のほとんどの方法は、訓練中に特別に作られたカナリアデータを挿入する必要がある。
さらに、疑わしいデータセットがモデルをトレーニングするために使用されたかどうかを監査するデータセット推論は、プライベートな非メンバーのホールドアウトデータセットにアクセスせずに実現可能である。
しかし、そのようなホールドアウトデータセットは、疑似データと同じ分布(IID)でなければならないため、現実のケースでは利用できない、あるいは構築が難しい場合が多い。
これらの制限は、スケーラブルでポストホックな監査を行う能力を著しく損なう。
このような監査を可能にするために、上記の課題に対する新しい解決策として自然識別子(NID)を導入する。
NIDは暗号ハッシュや短縮URLなどの構造化ランダム文字列であり、LLMトレーニングデータセットで自然に発生する。
このフォーマットは、監査のための代替カナリアや、データセット推論のための同分布保持データとして機能する。
我々の評価は、実際にNIDを使用することで、再トレーニングなしに、ポストホックな差分プライバシー監査を容易にし、NIDを含む疑似データセットに対して、プライベートな非メンバーのホールドアウトデータセットを必要とせずにデータセット推論を可能にすることを強調している。
関連論文リスト
- Phantoms and Disclosures: a Causal Framework for Auditing Synthetic Data [56.86147283213652]
データ開示の検出と説明を目的とした,カスタマイズ可能な実証監査フレームワークを提案する。
本フレームワークでは,ユーザの情報を直接再現する「真の開示」と,ユーザのデータを偶発的に生成する「幻の開示」とを区別する機構を導入する。
論文 参考訳(メタデータ) (2026-06-15T16:54:02Z) - Privacy Auditing with Zero (0) Training Run [24.856718399464636]
2つの固定データセットを使用してモデルを監査するためのポストホックフレームワークであるZero-Runのプライバシ監査を紹介する。
最初のアプローチは、適応的な構成として分布シフトとアルゴリズムリークの併用効果をモデル化する。
第2のアプローチでは、観測されたデータに基づいて、ポイントワイドなメンバシップ推定を調整し、よりシャープなインスタンス依存境界を得る。
論文 参考訳(メタデータ) (2026-05-14T09:00:56Z) - INO-SGD: Addressing Utility Imbalance under Individualized Differential Privacy [49.094769650817796]
ディファレンシャルプライバシ(DP)は、機密データや機密データを保護するために機械学習に広く利用されている。
本稿では,各バッチ内のデータを戦略的に低重み付けし,よりプライベートなデータの性能を向上させるINO-SGDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-05-08T16:04:09Z) - Detecting Non-Membership in LLM Training Data via Rank Correlations [12.012691770844278]
モデルロジットへのグレーボックスアクセスのみを使用してデータセットレベルの非メンバシップを検出するテストであるPRISMを紹介する。
我々の重要な洞察は、データセットを見たことのない2つのモデルが、正規化トークンログの確率において、1つのモデルがそのデータに基づいてトレーニングされた時よりも高いランク相関を示すことである。
PRISMは、偽陽性を避けながら、テストされたすべてのデータセットにわたるトレーニングデータのメンバシップを確実に除外する。
論文 参考訳(メタデータ) (2026-03-24T01:59:18Z) - Observational Auditing of Label Privacy [16.143689489883382]
差分プライバシー監査(DP)監査は、機械学習システムにおけるプライバシー保証を評価する上で不可欠である。
既存の監査手法では、例えば、アウト・オブ・ディストリビューションカナリアを注入したり、トレーニングからサンプルを取り除いたりすることで、トレーニングデータセットを変更する必要がある。
本稿では,データ分布の固有ランダム性を活用する新しい観察監査フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-18T03:12:59Z) - Unlocking Post-hoc Dataset Inference with Synthetic Data [11.886166976507711]
トレーニングデータセットは、データ所有者の知的財産権を尊重することなく、しばしばインターネットから取り除かれる。
推論(DI)は、被疑者データセットがトレーニングに使用されたかどうかを特定することで潜在的な治療を提供する。
既存のDIメソッドでは、妥協したデータセットの分布と密接に一致するトレーニングを欠くために、プライベートな設定を必要とします。
本研究では,必要なホールドアウト集合を合成的に生成することで,この問題に対処する。
論文 参考訳(メタデータ) (2025-06-18T08:46:59Z) - Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。
LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文 参考訳(メタデータ) (2025-06-06T13:02:59Z) - CBW: Towards Dataset Ownership Verification for Speaker Verification via Clustering-based Backdoor Watermarking [85.68235482145091]
大規模音声データセットは貴重な知的財産となった。
本稿では,新しいデータセットのオーナシップ検証手法を提案する。
我々のアプローチはクラスタリングに基づくバックドア透かし(CBW)を導入している。
我々は,ベンチマークデータセットに対する広範な実験を行い,本手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2025-03-02T02:02:57Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。