論文の概要: Learning to Attack and Defend: Adaptive Red Teaming of Language Models via GRPO
- arxiv url: http://arxiv.org/abs/2606.09701v1
- Date: Mon, 08 Jun 2026 16:21:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.501759
- Title: Learning to Attack and Defend: Adaptive Red Teaming of Language Models via GRPO
- Title(参考訳): 攻撃と防御の学習:GRPOによる言語モデルの適応的再チーム化
- Authors: Blake Bullwinkel, Eugenia Kim, Amanda Minnich, Mark Russinovich,
- Abstract要約: Adv GRPOは、密集したマルチチャネル報酬を使用してアタッカーとディフェンダーを最適化するコトレーニングフレームワークである。
提案手法は,高能率かつ移動可能な攻撃を発生させることができ,また,協調訓練されたディフェンダーが安全ベンチマークのベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 2.714570887733442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI red teaming must continually adapt to evolving attackers and defenders. Reinforcement learning offers a promising approach to discovering novel attacks, and co-training methods can produce more robust defenders in tandem. Recent works have demonstrated the efficacy of attacker-defender co-training by applying PPO and DPO, but report that GRPO is unstable in this setting. We introduce AdvGRPO, a co-training framework that makes GRPO viable for joint attacker-defender optimization using dense multi-channel rewards and decoupled advantage normalization. Training progresses through a curriculum from single-turn to closed-loop multi-turn attacks before bootstrapping co-training, where attacker and defender models are updated in alternation. We show that our method can produce highly effective and transferable attacks and that co-trained defenders outperform baselines on safety benchmarks.
- Abstract(参考訳): AIのレッドチーム化は、進化を続けるアタッカーやディフェンダーに継続的に適応しなければならない。
強化学習は、新しい攻撃を発見するための有望なアプローチを提供する。
近年, PPO と DPO を併用した攻撃防御協調訓練の有効性が実証されているが, GRPO が不安定であることを報告している。
本稿では,高密度なマルチチャネル報酬とデカップリングによるアドバタイズ正規化を用いて,GRPOを共同攻撃防御最適化に有効にするための協調学習フレームワークであるAdvGRPOを紹介する。
トレーニングは、シングルターンからクローズドループのマルチターンアタックまでのカリキュラムを通じて進行し、コトレーニングのブートストラップでは、アタッカーとディフェンダーモデルが変更される。
提案手法は,高能率かつ移動可能な攻撃を発生させることができ,また,協調訓練されたディフェンダーが安全ベンチマークのベースラインよりも優れていることを示す。
関連論文リスト
- CHASE: Adversarial Red-Blue Teaming for Improving LLM Safety using Reinforcement Learning [11.739543857396775]
ブラックボックス攻撃者と安全に配慮したディフェンダーを共同開発するチームリングフレームワークであるCHASEを紹介する。
CHASEカットはStrongREJECTスコアを43.2%削減し、良心的なプロンプトで0%の偽りを拒否する。
見出し結果の他に、CHASEはテンプレートのないRL探索が、機械的に異なる攻撃ファミリー間で転送される潜在攻撃プリミティブを回復することを示している。
論文 参考訳(メタデータ) (2026-06-04T00:06:13Z) - Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO [0.9048611509540079]
本稿では,分散GRPOにおける最初の敵攻撃について述べる。
敵の攻撃は、訓練後の良性ノードに容易に毒を塗布でき、攻撃成功率は最大で50回の反復で100%に達することが示される。
我々は、すべてのユーザが同じモデルをトレーニングしているか、異なるモデルをトレーニングするかによって、これらの攻撃を防御する方法を2つ提案する。
論文 参考訳(メタデータ) (2025-11-12T22:29:07Z) - Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models [64.47869632167284]
従来の言語モデル(LM)の安全性アライメントは、リアクティブで非結合な手順に依存している。
このシーケンシャルなアプローチはミスマッチを生み出し、攻撃者は時代遅れの防御に過度に適合する一方、守備側は出現する脅威に常に遅れをとどめている。
我々は,攻撃者と防御エージェントが継続的なインタラクションを通じて共進化するオンラインセルフプレイ強化学習アルゴリズムであるSelf-RedTeamを提案する。
論文 参考訳(メタデータ) (2025-06-09T06:35:12Z) - ARBoids: Adaptive Residual Reinforcement Learning With Boids Model for Cooperative Multi-USV Target Defense [0.918715978278858]
本稿では,適応型強化学習フレームワークであるABBoidsを紹介する。
深層強化学習と、生物学的にインスパイアされた力に基づくBoidsモデルを統合する。
提案手法は高忠実度ガゼボシミュレーション環境で検証される。
論文 参考訳(メタデータ) (2025-02-25T16:05:33Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Learning to Backdoor Federated Learning [9.046972927978997]
FL(Federated Learning)システムでは、悪意のある参加者がバックドアを集約されたモデルに簡単に埋め込むことができる。
一般的な強化学習に基づくバックドアアタックフレームワークを提案する。
我々のフレームワークは適応性と柔軟性があり、最先端の防御の下でも強力な攻撃性能と耐久性を実現する。
論文 参考訳(メタデータ) (2023-03-06T17:47:04Z) - Guidance Through Surrogate: Towards a Generic Diagnostic Attack [101.36906370355435]
我々は、攻撃最適化中に局所最小限を避けるための誘導機構を開発し、G-PGAと呼ばれる新たな攻撃に繋がる。
修正された攻撃では、ランダムに再起動したり、多数の攻撃を繰り返したり、最適なステップサイズを検索したりする必要がありません。
効果的な攻撃以上に、G-PGAは敵防御における勾配マスキングによる解離性堅牢性を明らかにするための診断ツールとして用いられる。
論文 参考訳(メタデータ) (2022-12-30T18:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。