論文の概要: SCRUB-FL: Sanitizing and Cleansing Representations via Unlearning of Backdoors
- arxiv url: http://arxiv.org/abs/2606.22700v1
- Date: Sun, 21 Jun 2026 22:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 07:26:11.229743
- Title: SCRUB-FL: Sanitizing and Cleansing Representations via Unlearning of Backdoors
- Title(参考訳): SCRUB-FL: バックドアの学習を通した衛生・クリーン化表現
- Authors: Osama Wehbi, Sarhad Arisdakessian, Omar Abdel Wahab, Azzam Mourad, Hadi Otrok,
- Abstract要約: Federated Learning (FL)は、生データを共有せずに協調的なモデルトレーニングを可能にする。
悪意のあるクライアントがモデル予測を操作するために、ローカルのトレーニングデータに隠れたトリガーを埋め込むバックドア攻撃に対して脆弱である。
SCRUB-FL, SCRUB-FLを提案する。
- 参考スコア(独自算出の注目度): 9.273743530407977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated Learning (FL) enables collaborative model training without sharing raw data, making it a promising paradigm for privacy-sensitive applications. However, its decentralized nature makes it inherently vulnerable to backdoor attacks, where malicious clients embed hidden triggers into local training data to manipulate model predictions. Existing defenses mainly operate during before and during aggregation cannot fully eliminate backdoor behaviors that persist in the converged global model. Moreover, the effectiveness of post-training sanitization is often limited by the server's lack of knowledge of trigger patterns or poisoned clients after convergence, resulting in residual backdoor behaviors or accuracy degradation due to neuron entanglement. To address this limitation, we propose SCRUB-FL (Sanitizing and Cleansing Representations via Unlearning of Backdoors), a two-phase solution for post-training backdoor removal in FL. During training, clients identify suspicious samples using spectral analysis and activation clustering, then train lightweight Wasserstein Generative Adversarial Network with Gradient Penalty (WGAN-GP) models to capture trigger-related distributions. The generator parameters are aggregated server-side to construct a global representation of suspicious patterns without exposing raw data. After convergence, the server synthesizes trigger-approximating samples and applies machine unlearning to erase the trigger-target association by redistributing predictions toward a uniform distribution. Experimental evaluations on CIFAR-10 and GTSRB across three attack types and up to 40% malicious participation demonstrate that SCRUB-FL reduces the backdoor attack success rate to as low as 3.88% while maintaining over 91% normal task accuracy, outperforming state-of-the-art defenses without requiring prior trigger knowledge or a large clean proxy dataset at the server.
- Abstract(参考訳): Federated Learning(FL)は、生データを共有せずに協調的なモデルトレーニングを可能にするため、プライバシに敏感なアプリケーションには有望なパラダイムである。
悪質なクライアントがモデル予測を操作するために、ローカルのトレーニングデータに隠れたトリガーを埋め込む。
既存の防衛は、集約されたグローバルモデルに持続するバックドアの挙動を完全に排除することはできない。
さらに、トレーニング後の衛生効果は、収束後のトリガーパターンや有毒クライアントの知識の欠如によって制限されることが多く、その結果、ニューロンの絡み合いによるバックドアの挙動や精度の低下が発生する。
この制限に対処するため,SCRUB-FL (Sanitizing and cleansing Representations via Unlearning of Backdoors)を提案する。
トレーニング中、クライアントはスペクトル分析とアクティベーションクラスタリングを使用して不審なサンプルを識別し、軽量なWasserstein Generative Adversarial Network with Gradient Penalty (WGAN-GP)モデルを訓練してトリガー関連分布をキャプチャする。
ジェネレータパラメータはサーバ側で集約され、生データを公開せずに疑わしいパターンのグローバル表現を構築する。
収束後、サーバはトリガー近似サンプルを合成し、マシンアンラーニングを適用して、一様分布に対する予測を再分配することによりトリガー目標関連を消去する。
CIFAR-10とGTSRBを3つの攻撃タイプ、最大40%の悪意のある参加で実験した結果、SCRUB-FLはバックドア攻撃の成功率を3.88%まで下げる一方、通常のタスク精度は91%以上維持し、サーバで事前のトリガー知識や大規模なクリーンプロキシデータセットを必要とせず、最先端の防御よりも優れていた。
関連論文リスト
- FL-PBM: Pre-Training Backdoor Mitigation for Federated Learning [15.911410230033816]
バックドア攻撃は、人工知能(AI)モデルの完全性と信頼性に重大な脅威をもたらす。
本稿では,フェデレートラーニングのための事前学習バックドア緩和を提案する。
フェデレートされた学習環境において、モデルトレーニングの前に、クライアント側の有毒データを積極的にフィルタリングする。
論文 参考訳(メタデータ) (2026-03-30T16:56:38Z) - Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models [74.1970982768771]
確立されたデータポゾンパイプラインは,MDLMにバックドアを埋め込むことに成功した。
拡散自己浄化(Diffusion Self-Purification)と呼ばれるMDLMのバックドア防御フレームワークについて紹介する。
論文 参考訳(メタデータ) (2026-02-24T15:47:52Z) - Revisiting Backdoor Threat in Federated Instruction Tuning from a Signal Aggregation Perspective [19.40077533912822]
本稿では,低濃度の有毒データからのテキストバックドア脆弱性を,良質なクライアントのデータセットに分散させることにより,より広範かつ悪質な脅威について検討する。
我々の発見は、現代の分散化されたデータエコシステムの現実に合わせた、新しい防衛メカニズムの緊急の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2026-02-17T15:54:45Z) - ZORRO: Zero-Knowledge Robustness and Privacy for Split Learning (Full Version) [58.595691399741646]
Split Learning(SL)は、リソース制約のあるクライアントがディープニューラルネットワーク(DNN)を協調的にトレーニングすることを可能にする分散学習アプローチである。
このセットアップにより、SLはデータを共有せずにサーバの能力を活用することができ、機密データを扱うリソース制約のある環境で非常に効果的になる。
我々は、プライベートで検証可能な、堅牢なSL防御スキームであるZORROを提示する。
論文 参考訳(メタデータ) (2025-09-11T18:44:09Z) - InverTune: Removing Backdoors from Multimodal Contrastive Learning Models via Trigger Inversion and Activation Tuning [36.56302680556252]
InverTuneは、最小限の攻撃仮定の下で、マルチモーダルモデルのための最初のバックドアディフェンスフレームワークである。
InverTuneは、3つの主要なコンポーネントを通じてバックドアアーティファクトを効果的に識別し、削除し、バックドアアタックに対する堅牢な保護を実現する。
実験の結果、InverTuneは最先端(SOTA)攻撃に対して平均攻撃成功率(ASR)を97.87%削減した。
論文 参考訳(メタデータ) (2025-06-14T09:08:34Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Client-side Gradient Inversion Against Federated Learning from Poisoning [59.74484221875662]
フェデレートラーニング(FL)により、分散参加者は、データを中央サーバに直接共有することなく、グローバルモデルをトレーニングできる。
近年の研究では、FLは元のトレーニングサンプルの再構築を目的とした勾配反転攻撃(GIA)に弱いことが判明している。
本稿では,クライアント側から起動可能な新たな攻撃手法であるクライアント側中毒性グレーディエント・インバージョン(CGI)を提案する。
論文 参考訳(メタデータ) (2023-09-14T03:48:27Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z) - CrowdGuard: Federated Backdoor Detection in Federated Learning [39.58317527488534]
本稿では,フェデレートラーニングにおけるバックドア攻撃を効果的に軽減する新しい防御機構であるCrowdGuardを提案する。
CrowdGuardでは、サーバロケーションのスタック化されたクラスタリングスキームを使用して、クライアントからのフィードバックに対するレジリエンスを高めている。
評価結果は、CrowdGuardがさまざまなシナリオで100%正の正の正の正の負の負の負の値を達成することを示す。
論文 参考訳(メタデータ) (2022-10-14T11:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。