論文の概要: Rapid Poison: Practical Poisoning Attacks Against the Rapid Response Framework
- arxiv url: http://arxiv.org/abs/2606.16242v1
- Date: Mon, 15 Jun 2026 05:40:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.099103
- Title: Rapid Poison: Practical Poisoning Attacks Against the Rapid Response Framework
- Title(参考訳): ラピッド・ポゾン:ラピッド・レスポンス・フレームワークに対する実用的な攻撃
- Authors: David Huang, Jaewon Chang, Avidan Shah, Prateek Mittal, Chawin Sitawarin,
- Abstract要約: プロンプトインジェクションはパイプラインに浸透し、有毒なサンプルをトレーニングセットに届けることを示す。
我々は、新しい現象を利用するOmission Attackでこの問題に対処する: 概念を欠いた安全でないサンプルを訓練する際、分類器はその概念の存在を安全なラベルと誤認する。
- 参考スコア(独自算出の注目度): 38.96400184175405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Rapid Response (RR) framework, deployed in production systems, including Anthropic's ASL-3 safeguards, continuously improves jailbreak-detection classifiers. When new jailbreaks emerge that bypass these classifiers, Rapid Response generates synthetic variants for training, helping the model generalize from the new attacks and quickly adapt. We reveal that prompt injection can infiltrate this pipeline to deliver poisoned samples into the classifier's training set, enabling two attack objectives: (I) targeted poisoning attacks that create false positives on harmless samples by categorizing them as a jailbreak, with a specific desired feature (e.g., certain formatting, subject, or keyword), (II) concept-based backdoor attacks that induce false negatives on jailbreak inputs, generalizing even to jailbreaks from attack strategies the defender explicitly trained against, when the backdoor trigger is present. Importantly, our threat model restricts adversaries to modifying only jailbreak samples (not benign data or labels), a constraint unexplored by prior work that makes the second objective particularly challenging. We address this with Omission Attack, which exploits a new phenomenon: when training on concept-absent unsafe samples, the classifier misassociates that concept's presence with the safe label. Both attacks cause substantial and in some cases near-complete label flipping at only a 1% poisoning rate, achieving up to 100% false positive rates and up to 96% false negative rates.
- Abstract(参考訳): AnthropicのASL-3セーフガードを含むプロダクションシステムにデプロイされたRapid Response (RR)フレームワークは、継続的にジェイルブレイク検出分類を改善している。
これらの分類器をバイパスする新しいジェイルブレイクが発生すると、Rapid Responseはトレーニング用の合成変種を生成し、新しい攻撃からモデルを一般化し、迅速に適応するのに役立つ。
即時注入は、このパイプラインに侵入して、分類器のトレーニングセットに有毒なサンプルを供給し、2つの攻撃目標を可能にする。 (I) 有害なサンプルに対して偽陽性を発生させる標的中毒攻撃を、特定の所望の特徴(例えば、特定のフォーマット、主題、キーワード)を用いてジェイルブレイクとして分類すること (II) ジェイルブレイクインプットに偽陰性を誘導する概念に基づくバックドア攻撃、そして、バックドアトリガーが存在するとき、ディフェンダーが明示的に訓練された攻撃戦略からジェイルブレイクを一般化すること。
重要なことは、我々の脅威モデルは、敵がジェイルブレイクのサンプルだけを変更すること(良心的なデータやラベルではない)を制限します。
我々は、新しい現象を利用するOmission Attackでこの問題に対処する: 概念を欠いた安全でないサンプルを訓練するとき、分類器はその概念の存在を安全なラベルと誤認する。
どちらの攻撃も実質的であり、場合によってはほぼ完全なラベルのフリップは1%程度しかなく、100%の偽陽性率、最大96%の偽陰性率に達する。
関連論文リスト
- Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。