論文の概要: Dummy Backdoor as a Defense: Removing Unknown Backdoors via Shared Internal Mechanisms for Generative LLMs
- arxiv url: http://arxiv.org/abs/2606.11648v1
- Date: Wed, 10 Jun 2026 04:26:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.291697
- Title: Dummy Backdoor as a Defense: Removing Unknown Backdoors via Shared Internal Mechanisms for Generative LLMs
- Title(参考訳): 防備としてのダミーバックドア:生成LDMのための共通内部メカニズムによる未知のバックドアの除去
- Authors: Kazuki Iwahana, Masaru Matsubayashi, Takuma Koyama, Toshiki Shibahara, Kenichiro Omintato, Akira Ito,
- Abstract要約: バックドア攻撃は、大規模言語モデルの安全性と信頼性に深刻な脅威をもたらす。
本稿では,異なるバックドア間での共通内部機構に基づく,シンプルで効果的なバックドア除去手法を提案する。
本手法は,モデルユーティリティを保ちながら,未知のバックドアの攻撃成功率を大幅に低減する。
- 参考スコア(独自算出の注目度): 1.4363317131844815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoor attacks pose a serious threat to the safety and reliability of Large Language Models (LLMs), as they cause models to behave normally on clean inputs while producing attacker-specified responses when hidden triggers are present. Removing such unknown backdoors is particularly challenging when the defender does not know the backdoor attack types or the internal mechanisms formed through backdoor training. In this work, we propose a simple but effective backdoor removal method based on shared internal mechanisms across different backdoors. First, we show that different backdoors with the same task (attack objective) induce similar trigger-activated changes in the internal activations. Motivated by this observation, our method intentionally embeds a backdoor with a known trigger (\emph{dummy backdoor}) and then removes it through further fine-tuning on dummy-triggered inputs paired with clean responses. Since the dummy backdoor and the unknown backdoor can rely on shared internal mechanisms, removing the dummy backdoor also reduces the effect of the unknown backdoor. We evaluate our method on three backdoor attack types across multiple model families. Experimental results show that our method substantially reduces the attack success rate of the unknown backdoor while preserving model utility, outperforming representative existing defense methods in both backdoor removal effectiveness and utility preservation. These findings suggest that a defender-controllable backdoor can serve as a helpful proxy for mitigating unknown backdoors in generative LLMs.
- Abstract(参考訳): バックドア攻撃は、大規模言語モデル(LLM)の安全性と信頼性に対して深刻な脅威となる。
このような未知のバックドアを除去することは、防御者がバックドア攻撃タイプやバックドア訓練によって形成される内部メカニズムを知らない場合、特に困難である。
本研究では,異なるバックドア間での共通内部機構に基づく,シンプルで効果的なバックドア除去手法を提案する。
まず、同じタスク(攻撃目標)を持つ異なるバックドアが、内部のアクティベーションに類似したトリガー活性化変化を引き起こすことを示す。
この観察により,本手法は意図的に既知のトリガー(\emph{dummy backdoor})を組み込んだバックドアを埋め込んだ上で,ダミートリガーの入力にクリーン応答を組み込んださらなる微調整により除去する。
ダミーバックドアと未知のバックドアは、共通の内部メカニズムに依存することができるため、ダミーバックドアを削除することで、未知のバックドアの効果も低減される。
本手法は,複数のモデルファミリーにまたがる3種類のバックドアアタックに対して評価を行った。
実験結果から,本手法はモデル実用性を維持しつつ,未知のバックドアの攻撃成功率を大幅に低減し,バックドア除去の有効性と実用性の両方において,既存の防衛方法よりも優れていたことが示唆された。
以上の結果から, ディフェンダー制御可能なバックドアは, 生成LDMにおける未知のバックドアの緩和に有効であることが示唆された。
関連論文リスト
- Backdoor Unlearning Generalization: A Path Toward the Removal of Unknown Triggers in LLMs [2.855228082831898]
非学習によるバックドア中立化は、バックドア全体にわたって一般化されていることを示す。
本研究は, プレトレーニングや継続プレトレーニングにより, バックドアを注入した3種類のモデル家族を対象に, この現象について検討した。
筆者らは, コントロールされたバックドアを故意に注入し, 取り除くことにより, LLMの安全性を向上する新たな方向性を示した。
論文 参考訳(メタデータ) (2026-06-02T15:38:12Z) - Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models [68.40324627475499]
本稿では,Expose Before You Defendという新しい2段階防衛フレームワークを紹介する。
EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。
2つの視覚データセットと4つの言語データセットにまたがる10のイメージアタックと6つのテキストアタックに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-10-25T09:36:04Z) - Flatness-aware Sequential Learning Generates Resilient Backdoors [7.969181278996343]
近年、バックドア攻撃は機械学習モデルのセキュリティに対する新たな脅威となっている。
本稿では,連続学習(CL)技術を活用して,バックドアのCFに対処する。
レジリエントなバックドアを生成可能な,SBL(Sequential Backdoor Learning)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-20T03:30:05Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - BaDExpert: Extracting Backdoor Functionality for Accurate Backdoor Input
Detection [42.021282816470794]
我々は,Deep Neural Networks(DNN)に対するバックドア攻撃に対する新しい防御法を提案する。
私たちの防衛は、モデルの生成方法とは独立して機能する開発後防衛のカテゴリに分類されます。
モデル推論におけるバックドア入力をフィルタリングする高精度なバックドア入力検出装置の実現可能性を示す。
論文 参考訳(メタデータ) (2023-08-23T21:47:06Z) - From Shortcuts to Triggers: Backdoor Defense with Denoised PoE [51.287157951953226]
言語モデルは、しばしば多様なバックドア攻撃、特にデータ中毒の危険にさらされる。
既存のバックドア防御手法は主に明示的なトリガーによるバックドア攻撃に焦点を当てている。
我々は,様々なバックドア攻撃を防御するために,エンド・ツー・エンドアンサンブルに基づくバックドア防御フレームワークDPoEを提案する。
論文 参考訳(メタデータ) (2023-05-24T08:59:25Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。