論文の概要: Natively Unlearnable Large Language Models
- arxiv url: http://arxiv.org/abs/2606.13873v1
- Date: Thu, 11 Jun 2026 19:56:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.628294
- Title: Natively Unlearnable Large Language Models
- Title(参考訳): ネイティブに学習不可能な大規模言語モデル
- Authors: Gaurav R. Ghosal, Pratyush Maini, Aditi Raghunathan,
- Abstract要約: NULLsは、ソース固有のコントリビューションを分離し、ソース間で共同で学習するという、対立する2つの目標を満たすモデルクラスである。
NULLはウィキペディアの6百万の記事にスケールし、それぞれを独立したソースとして分離していることを示す。
ハリー・ポッターの本をアンラーニングする事例研究において、NULLは反逆的抽出と反逆的再ラーニングの両方に抵抗する。
- 参考スコア(独自算出の注目度): 33.66128208989825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlearning aims to remove the influence of specific training data sources, but this has proved challenging because the contributions of different sources are entangled within the model. Isolating source contributions to disjoint parameters makes removal easier, though it obstructs joint learning across sources. We propose NULLs (Natively Unlearnable LLMs), a model class that satisfies the two opposing goals of isolating source-specific contributions and learning jointly across sources, by training a set of shared backbone neurons alongside a pool of sparsely activated sinks. During training, information specific to a source naturally concentrates in its sinks while information shared across sources accumulates in the backbone. A source is then unlearned at deployment by disabling its corresponding sinks, with no gradient updates and no access to the retained data. We show that NULLs scales to Wikipedia's ~6M articles, isolating each as an independent source. Unlearning a single article removes knowledge specific to it while preserving facts shared with semantically related articles, closely matching retraining from scratch. We note that unlearning with NULLs is also robust: in a case study of unlearning the Harry Potter books, NULLs resists both adversarial extraction and relearning that reverses post-hoc unlearning. Finally, NULLs preserves general language capabilities, matching a standard transformer on downstream benchmarks. Together, these results suggest that source-level unlearning need not be an afterthought. It can be built natively into LLM training while retaining the benefits of shared representation learning.
- Abstract(参考訳): Unlearningは、特定のトレーニングデータソースの影響を取り除くことを目的としているが、異なるソースのコントリビューションがモデル内で絡み合っているため、これは難しいことが証明されている。
解離パラメータへのソースコントリビューションの分離は、ソース間の共同学習を妨げるが、削除を容易にする。
本研究は、ソース固有のコントリビューションを分離する2つの目標を満たすモデルクラスであるNULL(Natively Unlearnable LLMs)を提案する。
訓練中、ソース固有の情報はシンクに集中し、ソース間で共有される情報はバックボーンに蓄積される。
その後、ソースは対応するシンクを無効にすることでデプロイ時に解放される。
NULLはウィキペディアの約600万の記事にスケールし、それぞれを独立したソースとして分離することを示す。
単一の記事の学習は、意味的な関連のある記事と共有される事実を保存しながら、その内容に特有の知識を取り除く。
Harry Potter の書籍をアンラーニングするケーススタディにおいて、NULL は反逆的抽出と再ラーニングの両方に抵抗し、ポストホックなアンラーニングを逆転させる。
最後に、NULLは、ダウンストリームベンチマークの標準トランスフォーマーにマッチして、一般的な言語機能を保っている。
これらの結果は、ソースレベルの未学習は後から考えるべきではないことを示唆している。
共有表現学習の利点を維持しながら、LLMトレーニングにネイティブに組み込むことができる。
関連論文リスト
- Anatomy of Unlearning: The Dual Impact of Fact Salience and Model Fine-Tuning [59.19460954480119]
忘れられた知識が事前学習や教師付き微調整に由来するかどうかを考察する。
実験の結果,事前学習モデルとSFTモデルは未学習に対して異なる反応を示した。
論文 参考訳(メタデータ) (2026-02-23T08:58:48Z) - LLM Unlearning on Noisy Forget Sets: A Study of Incomplete, Rewritten, and Watermarked Data [69.5099112089508]
大規模言語モデル(LLM)は、顕著な生成能力を示すが、機密データを記憶することで倫理的およびセキュリティ上の懸念を引き起こす。
この研究は、ノイズのある忘れセットと呼ばれる、摂動的または低忠実な忘れデータの下での未学習に関する最初の研究を提示する。
コアセマンティック信号が保存されている場合、未学習は摂動に対して驚くほど堅牢である。
論文 参考訳(メタデータ) (2025-10-10T05:10:49Z) - Model Collapse Is Not a Bug but a Feature in Machine Unlearning for LLMs [54.167494079321465]
LLMの現在のアンラーニング方法は、それらを微調整データに組み込むことで、削除しようとしているプライベート情報に基づいて最適化されている。
本研究では,未学習目標を学習対象に含まない新しい非学習手法-部分的モデル崩壊(PMC)を提案する。
論文 参考訳(メタデータ) (2025-07-06T03:08:49Z) - Align-then-Unlearn: Embedding Alignment for LLM Unlearning [41.94295877935867]
Unlearningは、個人情報や著作権のあるコンテンツなど、訓練されたモデルから特定のデータを選択的に取り除こうとしている。
セマンティック埋め込み空間においてアンラーニングを行う新しいフレームワークであるAlign-then-Unlearnを提案する。
論文 参考訳(メタデータ) (2025-06-16T07:48:01Z) - Distillation Robustifies Unlearning [36.27570321651185]
モデルのトレーニングは、基礎となる機能をそのまま残しながら、インプット・アウトプットの動作を大幅に変更できることを示す。
本研究では,未学習のモデルを自身のノイズコピーに蒸留するスケーラブルな手法であるUnlearn-Noise-Distill-on-Outputs (UNDO)を提案する。
論文 参考訳(メタデータ) (2025-06-06T17:58:54Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [81.62767292169225]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
確率摂動に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
TOFU、Harry Potter、ZsRE、WMDP、MUSEなど、さまざまなデータセットで実験が行われている。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - Source-Aware Training Enables Knowledge Attribution in Language Models [81.13048060332775]
固有のソースの引用は透明性、解釈可能性、検証可能性を高めることができる。
我々のトレーニングレシピは、モデルの難易度に大きな影響を与えることなく、事前学習データへの忠実な帰属を可能にする。
論文 参考訳(メタデータ) (2024-04-01T09:39:38Z) - The KITMUS Test: Evaluating Knowledge Integration from Multiple Sources
in Natural Language Understanding Systems [87.3207729953778]
我々は、データセット上で最先端のコア参照解決モデルを評価する。
いくつかのモデルは、事前訓練時間と推論時間の両方で観察された知識について、オンザフライで推論するのに苦労している。
それでも、最高のパフォーマンスモデルでさえ、推論時にのみ提示される知識を確実に統合するのは難しいようです。
論文 参考訳(メタデータ) (2022-12-15T23:26:54Z) - Unsupervised Audio Source Separation Using Differentiable Parametric
Source Models [8.80867379881193]
本研究では,教師なしモデルに基づく深層学習手法を提案する。
ニューラルネットワークは、観測された混合物をソースの和として再構成するように訓練される。
音声アンサンブル分離タスクの実験評価により,提案手法が学習自由法より優れていることが示された。
論文 参考訳(メタデータ) (2022-01-24T11:05:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。