論文の概要: Rethinking Backdoor Adversarial Unlearning through the Lens of Catastrophic Forgetting in Continual Learning
- arxiv url: http://arxiv.org/abs/2606.14078v1
- Date: Fri, 12 Jun 2026 03:55:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.73593
- Title: Rethinking Backdoor Adversarial Unlearning through the Lens of Catastrophic Forgetting in Continual Learning
- Title(参考訳): 連続学習におけるカタストロフィック・フォーミングのレンズによるバックドア・アドベラル・アンラーニングの再考
- Authors: Zhenqian Zhu, Yamin Hu, Yujiang Liu, Luping Wei, Wenbo Hou, Bin Li, Haodong Li, Wenjian Luo,
- Abstract要約: 現在のバックドア防御は、限られた堅牢性を示し、しばしば特定の種類の攻撃に対して失敗する。
連続的な学習の観点から,バックドア学習とアンラーニングの新たな定式化を逐次3段階のプロセスとして提示する。
本手法は,バックドア攻撃の幅広い範囲に適用可能であり,バックドアモデルからバックドア効果を効果的かつ徹底的に除去することができる。
- 参考スコア(独自算出の注目度): 7.959552018607674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing studies reveal that current backdoor defenses exhibit limited robustness and often fail against specific types of attacks. More concerningly, prevailing safety tuning strategies tend to provide only superficial safety protection, as they fall short of completely eliminating the backdoor effects. In this work, we present a novel formulation of backdoor learning and unlearning as a sequential, three-stage process from a continual learning perspective. Within this framework, we formally define complete backdoor unlearning and further derive the necessary conditions for achieving it based on the mechanism of catastrophic forgetting. Guided by these insights, we propose Blind Inversion-Backdoor Adversarial Unlearning (BI-BAU), which formulates the generation of adversarial examples satisfying the unlearning conditions as a blind inversion problem. We solve this by integrating the bi-level optimization process of adversarial training into an Expectation-Maximization (EM) algorithm framework to optimize the maximum a posteriori (MAP) objective. Furthermore, BI-BAU is extended to untargeted adversarial scenarios with unknown target classes, as well as to multi-modal contrastive learning tasks, enhancing its applicability to real-world deployment scenarios where pre-trained models may be compromised. Extensive experiments demonstrate that our method exhibits general applicability across a wide spectrum of backdoor attacks and can effectively and thoroughly eliminate the backdoor effects from a backdoor model.
- Abstract(参考訳): 既存の研究によると、現在のバックドア防御は限られた堅牢性を示し、しばしば特定の攻撃に対して失敗する。
より具体的には、一般的な安全チューニング戦略は、バックドア効果を完全に排除できないため、表面的な安全保護のみを提供する傾向にある。
本研究では,継続的学習の観点から,バックドア学習とアンラーニングの新たな定式化を逐次3段階のプロセスとして提示する。
本枠組みでは,完全なバックドア・アンラーニングを正式に定義し,破滅的な忘れ込みのメカニズムに基づいて,それを実現するために必要な条件を導出する。
これらの知見に導かれたBlind Inversion-Backdoor Adversarial Unlearning (BI-BAU)を提案する。
本稿では,2段階の対人訓練の最適化プロセスを期待最大化(EM)アルゴリズムフレームワークに統合し,MAPの最大目標を最適化する。
さらに、BI-BAUは、未知のターゲットクラスを持つ未ターゲットの敵シナリオにも拡張され、マルチモーダルなコントラスト学習タスクにも拡張され、事前訓練されたモデルが妥協されるような実世界のデプロイメントシナリオへの適用性を高めている。
広汎な実験により, バックドア攻撃の幅広い範囲に適用可能であり, バックドアモデルからバックドア効果を効果的に, 徹底的に除去できることが示された。
関連論文リスト
- BadBone: Backdoor Attacks Against Backbone Models in Visual Prompt Learning [34.532044428912144]
Prompt Learningは、そのシンプルさと実証された有効性のために、多くの注目を集めた、新しい機械学習パラダイムである。
採用が増えているにもかかわらず、このパラダイムに関連するセキュリティの脆弱性はいまだに調査されていない。
我々は,二段階最適化を用いた即時学習に対するステルスで適応的なバックドア攻撃であるBadBoneを提案する。
論文 参考訳(メタデータ) (2026-05-29T12:46:15Z) - Backdoor Unlearning by Linear Task Decomposition [69.91984435094157]
ファンデーションモデルは、敵の摂動と標的のバックドア攻撃に非常に敏感である。
既存のバックドア除去アプローチは、有害な振る舞いをオーバーライドするために、コストのかかる微調整に依存している。
このことは、バックドアがモデルの一般的な能力を損なうことなく取り除けるかどうかという問題を提起する。
論文 参考訳(メタデータ) (2025-10-16T16:18:07Z) - Injection, Attack and Erasure: Revocable Backdoor Attacks via Machine Unlearning [2.1896295740048894]
本稿では,攻撃目標達成後,バックドアを積極的にかつ徹底的に取り除くことができる,取り消し可能なバックドア攻撃の第1パラダイムを紹介する。
この研究は、バックドア攻撃研究の新しい方向性を開き、機械学習システムのセキュリティに対する新たな課題を提示します。
論文 参考訳(メタデータ) (2025-10-15T09:09:43Z) - ICLShield: Exploring and Mitigating In-Context Learning Backdoor Attacks [61.06621533874629]
In-context Learning (ICL)は、大規模言語モデル(LLM)において顕著な成功を収めた。
本稿では,LLMがタスク関連潜伏概念とバックドア関連潜伏概念の両方を同時に学習する,という二重学習仮説を初めて提案する。
そこで本研究では,概念選好比を動的に調整する防衛機構であるICLShieldを提案する。
論文 参考訳(メタデータ) (2025-07-02T03:09:20Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。