論文の概要: PreUnlearn: Auditing Collateral Knowledge Damage Before Large Language Model Unlearning
- arxiv url: http://arxiv.org/abs/2606.18473v1
- Date: Tue, 16 Jun 2026 20:32:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.894124
- Title: PreUnlearn: Auditing Collateral Knowledge Damage Before Large Language Model Unlearning
- Title(参考訳): PreUnlearn: 大規模言語モデルの学習に先立って, 副次的知識障害の検査
- Authors: Bo Su, Ankit Shah, Thai Le,
- Abstract要約: データ中心の観点から,大規模言語モデルの機械学習について検討する。
我々は一貫した崩壊パターンを見いだす: 横方向の損傷は、忘れられた集合の近くで最強であり、意味的な距離で弱まるが、ドメイン境界で消えることはない。
我々は,学習前予測タスクとして忘れセット監査を定式化し,下流の損傷を最も予測するデータの特徴を分析した。
- 参考スコア(独自算出の注目度): 12.982098269346773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning for large language models (LLMs) aims to remove specified knowledge while preserving the rest of the model's capabilities. However, the boundary between knowledge to forget and knowledge to retain is often unclear, since related and even distant information may be entangled in the model. In this paper, we study LLM unlearning from a data-centric perspective and measure how unlearning effects propagate from the forget set to same-domain and distant-domain knowledge. We find a consistent decay pattern: collateral damage is strongest near the forget set, weakens with semantic distance, but does not disappear at domain boundaries. We further ask whether such damage can be audited before unlearning is executed. We formulate forget-set auditing as a pre-unlearning prediction task and analyze which data features are most predictive of downstream damage. Our results show that interaction features between the forget set and evaluation set provide the strongest signals, suggesting that collateral damage is partly reflected in data geometry before model updates occur. These findings position forget-set auditing as an early warning tool for identifying risky unlearning runs and designing more reliable unlearning procedures.
- Abstract(参考訳): 大規模言語モデル(LLM)の機械学習は、モデルの残りの機能を保ちながら、特定の知識を削除することを目的としている。
しかし、関連する情報や遠方の情報がモデルに絡み合っている可能性があるため、忘れるべき知識と保持すべき知識の境界は、しばしば不明確である。
本稿では,LLMアンラーニングをデータ中心の観点から研究し,非ラーニング効果が忘れ領域から同じ領域と遠い領域の知識にどのように伝播するかを測定する。
我々は一貫した崩壊パターンを見いだす: 横方向の損傷は、忘れられた集合の近くで最強であり、意味的な距離で弱まるが、ドメイン境界で消えることはない。
さらに、未学習者が実行される前に、そのようなダメージを監査できるかどうかを問う。
我々は,学習前予測タスクとして忘れセット監査を定式化し,下流の損傷を最も予測するデータの特徴を分析した。
以上の結果から, モデル更新前のデータジオメトリに横方向の損傷が部分的に反映されることが示唆された。
これらの知見は、リスクの高い未学習の実行を識別し、より信頼性の高い未学習手順を設計するための早期警告ツールとして、忘れセット監査を位置づけている。
関連論文リスト
- ROKA: Robust Knowledge Unlearning against Adversaries [0.9236074230806578]
データ操作を必要とせず、知識汚染の結果を生かして、セキュリティクリティカルな予測に対するモデルの精度を乱す、新たな非学習誘発攻撃モデル、すなわち間接的非学習攻撃を導入する。
我々の研究は、未学習における知識保存の理論的保証を初めて提供するものである。ビジョントランスフォーマー、マルチモーダルモデル、および大規模言語モデルなど、様々な大規模モデルに対する評価は、Rokaが保持されたデータの正確性を維持しつつ、効果的に目標を解き放つことを示している。
論文 参考訳(メタデータ) (2026-02-28T03:30:39Z) - Auditing Language Model Unlearning via Information Decomposition [68.48660428111593]
部分的情報分解(PID)を用いたアンラーニング監査のための解釈可能な情報理論フレームワークを提案する。
非学習前後のモデル表現を比較することにより、相互情報と忘れられたデータとを別個の構成要素に分解し、未学習および残留知識の概念を定式化する。
我々の研究は、言語モデルのより安全なデプロイのための理論的洞察と実行可能なツールを提供する、アンラーニングのための原則付き表現レベル監査を導入している。
論文 参考訳(メタデータ) (2026-01-21T15:51:19Z) - REMIND: Input Loss Landscapes Reveal Residual Memorization in Post-Unlearning LLMs [0.1784233255402269]
機械学習は、モデルから特定のトレーニングデータの影響を、完全な再トレーニングを必要とせずに取り除くことを目的としている。
未学習データの微妙な残差を検出するための新しい評価手法であるREMINDを提案する。
未学習のデータは、より平坦で、より急なロスランドスケープをもたらす一方、保持または関連のないデータは、より鋭く、より揮発性のあるパターンを示す。
論文 参考訳(メタデータ) (2025-11-06T09:58:19Z) - LLM Unlearning on Noisy Forget Sets: A Study of Incomplete, Rewritten, and Watermarked Data [69.5099112089508]
大規模言語モデル(LLM)は、顕著な生成能力を示すが、機密データを記憶することで倫理的およびセキュリティ上の懸念を引き起こす。
この研究は、ノイズのある忘れセットと呼ばれる、摂動的または低忠実な忘れデータの下での未学習に関する最初の研究を提示する。
コアセマンティック信号が保存されている場合、未学習は摂動に対して驚くほど堅牢である。
論文 参考訳(メタデータ) (2025-10-10T05:10:49Z) - Unlearned but Not Forgotten: Data Extraction after Exact Unlearning in LLM [31.093224824043087]
学習前モデルからの信号を利用して学習後モデルを導く新しいデータ抽出攻撃を導入する。
シミュレーションされた医療診断データセット上での攻撃の有効性を実証し、正確なアンラーニングに関連する現実世界のプライバシーリスクを明らかにする。
論文 参考訳(メタデータ) (2025-05-30T09:09:33Z) - Unlearning Isn't Deletion: Investigating Reversibility of Machine Unlearning in LLMs [38.837810490068556]
大規模言語モデル(LLM)におけるアンラーニングは、指定されたデータを削除することを目的としているが、その効果は通常、正確性や複雑度のようなタスクレベルのメトリクスで評価される。
最小限の微調整によって元の動作が容易に復元される間、モデルは忘れることができることを実証する。
この表現可能性の現象は、情報は単に抑圧されているだけであり、真に消去されていないことを示唆している。
論文 参考訳(メタデータ) (2025-05-22T16:02:10Z) - GUARD: Generation-time LLM Unlearning via Adaptive Restriction and Detection [36.38245533018162]
大規模言語モデル(LLM)は、多様なドメインにまたがる膨大な知識を記憶する強力な能力を示している。
既存の未学習の取り組みは、通常、モデルを忘れデータ、データ保持、キャリブレーションモデルといったリソースで微調整する。
本稿では,LLM生成時の動的アンラーニングを実現するフレームワークであるAdaptive Restriction and Detection (GUARD) による生成時アンラーニングを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:26:58Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [81.62767292169225]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
確率摂動に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
TOFU、Harry Potter、ZsRE、WMDP、MUSEなど、さまざまなデータセットで実験が行われている。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - RESTOR: Knowledge Recovery in Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、プライベートまたはセンシティブな情報を含むことができる。
このようなデータポイントの効果を排除するために、いくつかの機械学習アルゴリズムが提案されている。
機械学習評価のためのRESTORフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T20:54:35Z) - Mitigating Temporal Misalignment by Discarding Outdated Facts [58.620269228776294]
大規模な言語モデルは、しばしば時間的ミスアライメントの下で使われ、現在に関する質問に答える。
我々は、ある事実がいつまで真実であるかを予測するタスクとして、事実期間予測を提案する。
私たちのデータとコードはhttps://github.com/mikejqzhang/mitigating_misalignment.comで公開されています。
論文 参考訳(メタデータ) (2023-05-24T07:30:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。