論文の概要: From Parameters to Feature Space: Task Arithmetic for Backdoor Mitigation in Model Merging
- arxiv url: http://arxiv.org/abs/2606.12498v1
- Date: Wed, 10 Jun 2026 13:51:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.369609
- Title: From Parameters to Feature Space: Task Arithmetic for Backdoor Mitigation in Model Merging
- Title(参考訳): パラメータから特徴空間へ:モデル統合におけるバックドア緩和のためのタスク算術
- Authors: Zhenqian Zhu, Yamin Hu, Yiya Diao, Weixiang Li, Haodong Li, Wenjian Luo,
- Abstract要約: モデルマージング(MM)は、複数のタスク固有のモデルを統一モデルに統合するコスト効率の高いアプローチとして注目されている。
最近の研究によると、MMはバックドア攻撃の影響を受けやすいことが判明している。
モデルマージのためのバックドア緩和フレームワークLFPM(Linear Feature Path Minimization)を提案する。
- 参考スコア(独自算出の注目度): 9.772291868457812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging (MM) has gained significant attention as a cost-effective approach to integrate multiple task-specific models into a unified model. However, recent work reveals that MM is highly susceptible to backdoor attacks. Existing defenses based on task arithmetic often fail to eliminate backdoors without substantially degrading clean-task performance, owing to their reliance on direct parameter-space editing. To address this gap, we propose Linear Feature Path Minimization (LFPM), a backdoor mitigation framework for model merging, which introduces an anti-backdoor task vector into the backdoored merged model. Unlike prior approaches, LFPM formulates the backdoor robustness of the merged model from a unified feature-space perspective under the Cross-Task Linearity (CTL) framework, which leverages the approximate linearity of features across tasks. This perspective guides the optimization of the anti-backdoor task to suppress backdoors while preserving clean-task performance. Furthermore, we introduce an effective optimization mechanism based on gradient accumulation and loss path-integral, ensuring robust backdoor suppression along the interpolation path. Extensive experiments demonstrate that LFPM consistently exhibits strong robustness against backdoor attacks in both full fine-tuning and Parameter-Efficient Fine-Tuning (PEFT) settings.
- Abstract(参考訳): モデルマージング(MM)は、複数のタスク固有のモデルを統一モデルに統合するコスト効率の高いアプローチとして注目されている。
しかし、最近の研究により、MMはバックドアアタックの影響を受けやすいことが判明した。
タスク演算に基づく既存の防御は、直接パラメータ空間の編集に依存するため、クリーンタスクのパフォーマンスを著しく低下させることなくバックドアを排除できないことが多い。
このギャップを解決するために,モデルマージのバックドア緩和フレームワークであるLinear Feature Path Minimization (LFPM)を提案する。
従来の手法とは異なり、LFPMはCTL(Cross-Task Linearity)フレームワークの下で統合された特徴空間の観点からマージモデルのバックドアロバスト性を定式化し、タスク間の機能の近似線形性を活用する。
この視点は、クリーンタスクのパフォーマンスを維持しながらバックドアを抑制するために、バックドア対策の最適化を導く。
さらに、勾配の蓄積と損失経路の積分に基づく効率的な最適化機構を導入し、補間経路に沿って堅牢なバックドア抑制を確保する。
LFPMは、完全な微調整とパラメータ効率の良い微調整(PEFT)の両方において、バックドア攻撃に対して強い堅牢性を示す。
関連論文リスト
- Model Merging in the Essential Subspace [78.5390284258307]
モデルマージは、複数のタスク固有の細調整されたモデルを、追加のトレーニングなしで単一のマルチタスクモデルに統合することを目的としている。
広範囲の研究にもかかわらず、タスク干渉は依然として大きな障害であり、しばしば統合されたモデルの性能を損なう。
効率的なモデルマージのための堅牢なフレームワークであるESM(Essential Subspace Merging)を提案する。
論文 参考訳(メタデータ) (2026-02-23T00:33:38Z) - Backdoor Unlearning by Linear Task Decomposition [69.91984435094157]
ファンデーションモデルは、敵の摂動と標的のバックドア攻撃に非常に敏感である。
既存のバックドア除去アプローチは、有害な振る舞いをオーバーライドするために、コストのかかる微調整に依存している。
このことは、バックドアがモデルの一般的な能力を損なうことなく取り除けるかどうかという問題を提起する。
論文 参考訳(メタデータ) (2025-10-16T16:18:07Z) - MARS: A Malignity-Aware Backdoor Defense in Federated Learning [51.77354308287098]
最近提案されたSOTA攻撃(3DFed)は、ディフェンダーがバックドアモデルを受け入れたかどうかを判断するためにインジケータ機構を使用する。
本稿では,各ニューロンの有害な範囲を示すためにバックドアエネルギーを利用するMARS(Maignity-Aware backdooR defenSe)を提案する。
実験により、MARSはSOTAのバックドア攻撃に対して防御でき、既存の防御を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-09-21T14:50:02Z) - Backdoor Mitigation via Invertible Pruning Masks [10.393154496941527]
本稿では,メインタスクとバックドアタスクの両方に必須なパラメータを識別する,学習したEmphselection機構を備えた新しいプルーニング手法を提案する。
これを二段階最適化問題として定式化し、選択変数、スパース可逆マスク、サンプル固有のバックドア摂動を共同で学習する。
提案手法は,既存のプルーニング方式のバックドア緩和手法より優れ,限られたデータ条件下での強い性能を維持し,最先端の微調整手法と比較して競争力のある結果が得られる。
論文 参考訳(メタデータ) (2025-09-19T00:32:19Z) - Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning [57.514786046966265]
textbfPerturb-and-Merge(P&M)は,モデルマージをCLパラダイムに統合し,忘れを緩和する新しい連続学習フレームワークである。
提案手法は,複数の連続学習ベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-28T14:14:19Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - REFINE: Inversion-Free Backdoor Defense via Model Reprogramming [60.554146386198376]
ディープニューラルネットワーク(DNN)に対するバックドア攻撃は、重大なセキュリティ脅威として浮上している。
モデル再プログラミングに基づく逆フリーバックドア防御手法であるREFINEを提案する。
論文 参考訳(メタデータ) (2025-02-22T07:29:12Z) - Mitigating the Backdoor Effect for Multi-Task Model Merging via Safety-Aware Subspace [15.457992715866995]
本稿では,タスク干渉とバックドア脆弱性を同時に軽減する新しいDAM手法を提案する。
既存のマージ手法と比較して、DAMはパフォーマンスとセキュリティのバランスが良く、攻撃成功率を2-10ポイント削減する。
論文 参考訳(メタデータ) (2024-10-17T00:13:31Z) - LMSanitator: Defending Prompt-Tuning Against Task-Agnostic Backdoors [10.136109501389168]
LMSanitatorは、Transformerモデル上でタスク非依存のバックドアを検出し、削除するための新しいアプローチである。
LMSanitatorは960モデルで92.8%のバックドア検出精度を達成し、ほとんどのシナリオで攻撃成功率を1%以下に下げる。
論文 参考訳(メタデータ) (2023-08-26T15:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。