論文の概要: Loss Landscape Poisoning: Targeted Extraction of Unseen Training Data from LLMs
- arxiv url: http://arxiv.org/abs/2606.17110v2
- Date: Mon, 22 Jun 2026 18:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.214546
- Title: Loss Landscape Poisoning: Targeted Extraction of Unseen Training Data from LLMs
- Title(参考訳): 失われた景観汚染:LLMからの見知らぬ訓練データの抽出
- Authors: Md Abdullah Al Mamun, Ngoc Phu Doan, Pedram Zaree, Nael Abu-Ghazaleh, Ihsen Alouani,
- Abstract要約: 大規模言語モデルは、プロプライエタリまたはセンシティブなデータに基づいて、ますます訓練されている。
本稿では,トレーニングデータの一部に毒を盛る攻撃者が,個別のターゲットレコードの漏洩を防止できるかどうかを問う。
このような漏洩は, モデル局所的な損失景観を再現する中毒機構によって引き起こされる可能性があることを示す。
- 参考スコア(独自算出の注目度): 5.474954219332285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models are increasingly trained on proprietary or sensitive data, from private healthcare and financial records to user conversations containing secrets. Ensuring the privacy of such data against extraction attacks has become a central concern. In this paper, we ask whether an attacker who can poison a portion of the training data can facilitate the leakage of a separate target record they have no access to. We answer in the affirmative and show that such leakage can be induced by a poisoning mechanism that reshapes the model's local loss landscape around the target completion. Our key insight is that poisoning to create a sharp loss minimum at the target, surrounded by elevated loss on nearby alternatives, forces the model to memorize the target as the unique low-loss solution in its neighborhood. The attack requires no architectural changes, and generalizes across centralized and federated learning settings. We demonstrate that the attack amplifies privacy leakage across language (up to 100% successful extraction), and vision-language models (up 90% successful extraction). We show that the attack is thwarted when the model is trained to be differentially private. However, we introduce a new attack that directly probes the loss landscape bypassing even differential privacy defenses.
- Abstract(参考訳): 大規模言語モデルは、プライベートヘルスケアや財務記録から秘密を含むユーザ会話まで、プロプライエタリまたはセンシティブなデータに基づいて、ますます訓練されている。
抽出攻撃に対するデータのプライバシの確保が中心的な関心事となっている。
本稿では,トレーニングデータの一部に毒を盛る攻撃者が,アクセスできない個別のターゲットレコードの漏洩を防止できるかどうかを問う。
そこで,本論文では,本論文の肯定的回答として,対象完了周辺の局所的損失景観を再現する毒化機構により,そのような漏洩が引き起こされることを示す。
我々の重要な洞察は、毒がターゲットに致命的な損失を最小限に抑え、近隣の代替品の損失を増大させ、そのモデルに、その周辺でユニークな低損失のソリューションとして、そのターゲットを記憶させるよう強制することである。
この攻撃はアーキテクチャの変更を必要とせず、集中型および連合型学習設定にまたがって一般化する。
この攻撃は、言語全体のプライバシー漏洩を増幅し(100%成功)、視覚言語モデル(90%成功)を増幅することを示した。
モデルが差分プライベートになるように訓練された場合、攻撃は阻止される。
しかし、我々は、差別的なプライバシ保護を回避して、損失状況を直接調査する新たな攻撃を導入する。
関連論文リスト
- Unlearned but Not Forgotten: Data Extraction after Exact Unlearning in LLM [31.093224824043087]
学習前モデルからの信号を利用して学習後モデルを導く新しいデータ抽出攻撃を導入する。
シミュレーションされた医療診断データセット上での攻撃の有効性を実証し、正確なアンラーニングに関連する現実世界のプライバシーリスクを明らかにする。
論文 参考訳(メタデータ) (2025-05-30T09:09:33Z) - Venomancer: Towards Imperceptible and Target-on-Demand Backdoor Attacks in Federated Learning [16.04315589280155]
本稿では,効果的なバックドア攻撃であるVenomancerを提案する。
この方法は、Norm Clipping、Wak DP、Krum、Multi-Krum、RLR、FedRAD、Deepsight、RFLBATといった最先端の防御に対して堅牢である。
論文 参考訳(メタデータ) (2024-07-03T14:22:51Z) - No Vandalism: Privacy-Preserving and Byzantine-Robust Federated Learning [18.1129191782913]
フェデレートされた学習により、複数のクライアントがプライベートデータを共有せずに1つの機械学習モデルを共同でトレーニングし、プライバシ保護を提供する。
従来の連合学習は、毒性攻撃に弱いため、モデルの性能を低下させるだけでなく、悪意のあるバックドアを埋め込むこともできる。
本稿では,悪意ある参加者からの攻撃に対して,有害行為(NoV)のない環境を提供するために,プライバシ保護とビザンチン損なうフェデレーション・ラーニング・スキームを構築することを目的とする。
論文 参考訳(メタデータ) (2024-06-03T07:59:10Z) - Can Sensitive Information Be Deleted From LLMs? Objectives for Defending
Against Extraction Attacks [73.53327403684676]
本稿では,モデル重みから直接センシティブな情報を削除する作業を研究するためのアタック・アンド・ディフェンスフレームワークを提案する。
モデル重み付けへの直接的編集について検討する。この手法は、削除された情報が将来的な攻撃によって抽出されないことを保証すべきである。
我々のホワイトボックスやブラックボックス攻撃は、編集されたモデルの38%から「削除された」情報を復元できるので、ROMEのような最先端のモデル編集方法でさえ、GPT-Jのようなモデルから事実情報を真に消し去るのに苦労している。
論文 参考訳(メタデータ) (2023-09-29T17:12:43Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - Truth Serum: Poisoning Machine Learning Models to Reveal Their Secrets [53.866927712193416]
トレーニングデータセットを有害にすることができる敵が、このデータセットでトレーニングされたモデルに、他の当事者のプライベート詳細を漏洩させる可能性があることを示す。
私たちの攻撃は、メンバーシップ推論、属性推論、データ抽出に効果的です。
私たちの結果は、機械学習のためのマルチパーティプロトコルにおける暗号化プライバシ保証の関連性に疑問を投げかけました。
論文 参考訳(メタデータ) (2022-03-31T18:06:28Z) - Privacy-Preserving Federated Learning on Partitioned Attributes [6.661716208346423]
フェデレーション学習は、ローカルデータやモデルを公開することなく、協調的なトレーニングを促進する。
ローカルモデルをチューニングし、プライバシー保護された中間表現をリリースする逆学習ベースの手順を紹介します。
精度低下を緩和するために,前方後方分割アルゴリズムに基づく防御法を提案する。
論文 参考訳(メタデータ) (2021-04-29T14:49:14Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching [56.280018325419896]
Data Poisoning攻撃は、トレーニングデータを変更して、そのようなデータでトレーニングされたモデルを悪意を持って制御する。
我々は「スクラッチから」と「クリーンラベルから」の両方である特に悪意のある毒物攻撃を分析します。
フルサイズで有毒なImageNetデータセットをスクラッチからトレーニングした現代のディープネットワークにおいて、ターゲットの誤分類を引き起こすのは、これが初めてであることを示す。
論文 参考訳(メタデータ) (2020-09-04T16:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。