論文の概要: SAGE: Retain-Aware Post-Hoc Sanitization of Final Unlearning Vector
- arxiv url: http://arxiv.org/abs/2606.18309v1
- Date: Tue, 16 Jun 2026 08:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.814202
- Title: SAGE: Retain-Aware Post-Hoc Sanitization of Final Unlearning Vector
- Title(参考訳): SAGE: 最終未学習ベクトルのホック後の衛生状態の維持
- Authors: Jingyuan Zhang, Yucheng Bai, Peixi Wen, Zhehao Huang, Zhengbao He, Hanling Tian, Xinwen Cheng, Haiyin Ran, Xiaolin Huang,
- Abstract要約: 現在のアンラーニング手法は、すべて、アンラーニングと保持の間のトレードオフを含んでいる。
また, 保持行動バイアスは, 保持に影響を及ぼす未学習手法による損傷の定量化にも有効であることがわかった。
これにより、ポストホックアプローチを用いて、未学習のメソッドの保持性能を復元できる。
- 参考スコア(独自算出の注目度): 32.30497427199285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) unlearning aims to remove undesirable knowledge or behaviors while preserving retained capabilities. Current unlearning methods all involve a trade-off between unlearning and retention. We have found that the retention activation bias can also be used to quantify the damage an unlearning method inflicts on retention, without considering the specific implementation of the unlearning process. This allows us to restore retention performance for any unlearning method using a post-hoc approach. Therefore, we propose a complementary post-hoc setting to sanitize the final update vector without rerunning the original unlearning pipeline. In this setting, we design SAGE, Spectral Activation-GEometry Sanitization, a source-agnostic correction for final unlearning updates. SAGE collects real module inputs from a small retain proxy, extracts their dominant activation geometry, and solves a source-anchored optimization objective in closed form, which suppresses update components aligned with high-energy retained directions while preserving the source method's forgetting carrier. Across multiple unlearning methods, model scales, and benchmarks, SAGE consistently relieves the retain-forget trade-off, identifying post-hoc sanitization of final vectors as a practical and underexplored axis for machine unlearning.
- Abstract(参考訳): 大規模言語モデル(LLM)のアンラーニングは、望ましくない知識や振る舞いを排除し、保持する能力を維持することを目的としている。
現在のアンラーニング手法は、すべて、アンラーニングと保持の間のトレードオフを含んでいる。
また, 学習過程の具体的実装を考慮せずに, 無学習法が保持に影響を及ぼす損傷を定量化するためにも, 保持活性化バイアスが有効であることが判明した。
これにより、ポストホックアプローチを用いて、未学習のメソッドの保持性能を復元できる。
そこで本研究では,従来の未学習パイプラインを再実行することなく,最終更新ベクトルを正当化するための補足後設定を提案する。
そこで我々はSAGE, Spectral Activation-Geometry Sanitizationを設計した。
SAGEは、小さな保持プロキシから実際のモジュール入力を収集し、支配的なアクティベーションジオメトリを抽出し、ソースメソッドの忘れるキャリアを保存しながら、高エネルギー保持方向と整合した更新コンポーネントを抑えるクローズドフォームでソースアンコール最適化の目的を解決する。
複数のアンラーニング方法、モデルスケール、ベンチマークを通じて、SAGEは継続したトレードオフを緩和し、最終ベクトルの保温後の衛生化を、機械学習の実践的で未調査の軸として特定する。
関連論文リスト
- Inference-Time Machine Unlearning via Gated Activation Redirection [1.1699531043716684]
ゲーテッド・アクティベーション・リダイレクト(GUARD-IT)による推論時間学習の導入
GUARD-ITは入力依存のアクティベーションステアリングを推論時に解き放ち、モデルの重みはそのまま残す。
TOFUとMUSEの実験では、GUARD-ITは3つのモデルスケールで12の勾配ベースラインと一致するか、あるいは超えている。
論文 参考訳(メタデータ) (2026-05-12T21:26:25Z) - Geometric-Disentangelment Unlearning [106.99160454669902]
忘れたサンプルへの勾配は しばしば 保持された知識を傷つける
本稿では,GU(Geometric-disment Unlearning)を提案する。
本手法はプラグ・アンド・プレイであり,既存の勾配に基づくアンラーニング手法と併用することで副作用を軽減できる。
論文 参考訳(メタデータ) (2025-11-21T09:58:25Z) - Rotation Control Unlearning: Quantifying and Controlling Continuous Unlearning for LLM with The Cognitive Rotation Space [66.51378598755933]
本研究では,学習継続過程における学習度を定量化し,制御する,回転制御アンラーニング(RCU)と呼ばれる新しい手法を提案する。
歪対称損失は、回転角の変化が連続的未学習過程をシミュレートできる認知回転空間の存在を構築するように設計されている。
複数のデータセットに対する実験により、保持されたデータセットを持たないメソッドがSOTA性能を達成することを確認した。
論文 参考訳(メタデータ) (2025-09-30T03:59:29Z) - GRU: Mitigating the Trade-off between Unlearning and Retention for LLMs [34.90826139012299]
非学習過程における更新の方向を規定する改良されたフレームワークであるグラデーション・リクティファイド・アンラーニング(GRU)を提案する。
GRUは簡単に実装でき、様々な確立された未学習ベンチマークで実践的な効果を示す。
論文 参考訳(メタデータ) (2025-03-12T07:08:54Z) - Adaptive Retention & Correction: Test-Time Training for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - Is Retain Set All You Need in Machine Unlearning? Restoring Performance of Unlearned Models with Out-Of-Distribution Images [0.0]
SCAR(Selective-distillation for Class and Architecture-Agnostic UnleaRning)を紹介する。
SCARは、保持セットを使わずに、モデルのテスト精度を維持しながら、特定の情報を効率的に除去する。
提案手法の有効性を3つの公開データセットで実験的に検証した。
論文 参考訳(メタデータ) (2024-04-19T14:45:27Z) - Incremental Object Detection via Meta-Learning [77.55310507917012]
本稿では,段階的タスク間の情報を最適に共有するように,モデル勾配を再形成するメタラーニング手法を提案する。
既存のメタ学習法と比較して,本手法はタスク非依存であり,オブジェクト検出のための高容量モデルに新たなクラスやスケールを段階的に追加することができる。
論文 参考訳(メタデータ) (2020-03-17T13:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。