論文の概要: Defending Against Malicious Finetuning by Scaling Train-time Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2606.07970v1
- Date: Sat, 06 Jun 2026 04:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.592203
- Title: Defending Against Malicious Finetuning by Scaling Train-time Adversarial Attacks
- Title(参考訳): 列車逆行攻撃のスケーリングによる悪意あるファインタニングの防止
- Authors: Haoming Wen, Shi Chen, Qingyu Shi, Siyuan Liu, Minrui Luo, Jingzhao Zhang, Tianxing He,
- Abstract要約: 現在のオープンウェイトな大規模言語モデル(LLM)は、悪意のある微調整攻撃の傾向にある。
パッチャー(Pacher)は、敵対的訓練と二段階最適化にインスパイアされた手法である。
パッチャーはバニラSFTアライメントと比較してモデルのロバスト性を大幅に改善することを示す。
- 参考スコア(独自算出の注目度): 21.665721988256504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current open-weight large language models (LLMs) are prone to malicious finetuning attacks, which could compromise the safety alignment of LLMs with only a few steps of supervised finetuning (SFT) on poisoned datasets. Existing alignment-stage defenses are primarily designed to defend against attacks that use parameter-efficient finetuning methods. However, they fail to defend against stronger attacks that use full-parameter finetuning. In this paper, we propose Patcher, a method inspired by adversarial training and bi-level optimization, to combat such attacks. Patcher strengthens the simulated attack by scaling up the optimization steps in the adversarial loop, thus forcing the defender to find model parameters that are insensitive to stronger attacks. Furthermore, we propose an efficient parallel algorithm to implement Patcher, decreasing the wall-clock time of training while preserving Patcher's performance. Extensive experiments show that Patcher substantially improves the model's robustness compared to vanilla SFT alignment, and transfers to diverse attack scenarios and model sizes. Code is available at https://github.com/haomingwen/patcher.
- Abstract(参考訳): 現在のオープンウェイトな大規模言語モデル(LLM)は、悪意のある微調整攻撃の傾向があり、有害なデータセットに対する監視された微調整(SFT)のほんの数ステップで、LSMの安全性を損なう可能性がある。
既存のアライメントステージ防御は、パラメータ効率の良い微調整手法を使用する攻撃に対して防御するように設計されている。
しかし、フルパラメータの微調整を使用する強力な攻撃に対して防御することはできなかった。
本稿では,このような攻撃に対処するために,対人訓練と双方向最適化に触発されたPacherを提案する。
Patcher氏は、敵ループの最適化ステップをスケールアップすることでシミュレーション攻撃を強化し、より強力な攻撃に敏感なモデルパラメータを見つけるようディフェンダーに強制する。
さらに,Pacherの性能を保ちながら,トレーニングのウォールタイム時間を短縮し,Pacherを実装するための効率的な並列アルゴリズムを提案する。
大規模な実験により、パッチャーはバニラSFTアライメントと比較してモデルの堅牢性を大幅に改善し、多様な攻撃シナリオやモデルサイズに移行した。
コードはhttps://github.com/haomingwen/patcher.comで入手できる。
関連論文リスト
- The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections [74.60337113759313]
現在のジェイルブレイクとプロンプトインジェクションに対する防御は、通常、有害な攻撃文字列の静的セットに対して評価される。
我々は,この評価プロセスに欠陥があることを論じる。代わりに,攻撃戦略を明示的に修正したアダプティブアタッカーに対する防御を,防衛設計に対抗して評価すべきである。
論文 参考訳(メタデータ) (2025-10-10T05:51:04Z) - An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Fight Back Against Jailbreaking via Prompt Adversarial Tuning [23.55544992740663]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の影響を受けやすい。
本稿では,ユーザプロンプトに付随するプロンプト制御をガードプレフィックスとしてトレーニングする,PAT(Prompt Adversarial Tuning)というアプローチを提案する。
本手法は, グレーボックス攻撃とブラックボックス攻撃の両方に対して有効であり, 先進攻撃の成功率を0%に低下させる。
論文 参考訳(メタデータ) (2024-02-09T09:09:39Z) - Robust Prompt Optimization for Defending Language Models Against Jailbreaking Attacks [17.22989422489567]
大規模言語モデル(LLM)は敵の攻撃や脱獄に対して脆弱である。
本稿では,LLMをジェイルブレイク攻撃から守るための最適化に基づく目標と,堅牢なシステムレベルの防御を実現するアルゴリズムを提案する。
GPT-4の攻撃成功率(ASR)は6%,Llama-2の攻撃成功率(ASR)は0%に低下した。
論文 参考訳(メタデータ) (2024-01-30T18:56:08Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Transferable Attack for Semantic Segmentation [59.17710830038692]
敵が攻撃し、ソースモデルから生成された敵の例がターゲットモデルを攻撃するのに失敗するのを観察します。
本研究では, セマンティックセグメンテーションのためのアンサンブルアタックを提案する。
論文 参考訳(メタデータ) (2023-07-31T11:05:55Z) - Generative Dynamic Patch Attack [6.1863763890100065]
我々は、エンドツーエンドのパッチアタックアルゴリズム、Generative Dynamic Patch Attack (GDPA)を提案する。
GDPAは、各入力画像に対して、パッチパターンとパッチ位置の両方を逆向きに生成する。
VGGFace、Traffic Sign、ImageNetの実験によると、GDPAは最先端のパッチ攻撃よりも高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2021-11-08T04:15:34Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。