論文の概要: Automated jailbreak attack targeting multiple defense strategies
- arxiv url: http://arxiv.org/abs/2606.16751v1
- Date: Mon, 15 Jun 2026 14:09:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.601203
- Title: Automated jailbreak attack targeting multiple defense strategies
- Title(参考訳): 複数の防衛戦略をターゲットにした自動脱獄攻撃
- Authors: Qi Wang, Chengcheng Wan, Weijia He, Yanqing Li, Hanqi Sun, Xiaodong Gu, Jiangtao Wang,
- Abstract要約: 大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
しかし、敵の攻撃による攻撃を受けやすいため、その安全性は依然として重要な懸念事項である。
防衛指向の観点から設計した対戦型テストフレームワークUNIATTACKを提案する。
- 参考スコア(独自算出の注目度): 11.710908982928594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities across a wide range of tasks. However, their safety remains a critical concern due to their susceptibility to adversarial prompt-based attacks. In this paper, we present UNIATTACK, an adversarial testing framework designed from a defense-oriented perspective to systematically construct effective black-box attack prompts. Unlike prior approaches that rely on static templates or iterative model-specific tuning, UNIATTACK extracts minimal but high-impact attack features from diverse existing attacks, optimizes them via a specialized attacker LLM, and composes them into flexible templates through automated refinement process. This feature-centric construction enables one-shot attacks that generalize across multiple models and safety categories, providing a practical tool for assessing LLM robustness. Our evaluation results shows that compared to the baselines, UNIATTACK achieves an average attack success rate (ASR) improvement of 64.63\%-248.82\% on models deployed with multi-layered defense mechanisms and it only takes 0.03\%-4.96\% cost of the baselines. UNIATTACK artifact is available at https://anonymous.4open.science/r/UniAttack-Artifact-30F1.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
しかし、敵の攻撃による攻撃を受けやすいため、その安全性は依然として重要な懸念事項である。
本稿では,効果的なブラックボックス攻撃プロンプトを体系的に構築するために,防衛指向の観点から設計された対戦型テストフレームワークUNIATTACKを提案する。
静的テンプレートや反復型モデル固有のチューニングに依存する従来のアプローチとは異なり、UNIATTACKは、さまざまな既存攻撃から最小でも高インパクトな攻撃機能を抽出し、特殊な攻撃的LLMを通じて最適化し、自動修正プロセスを通じて柔軟なテンプレートに構成する。
この特徴中心構造は、複数のモデルと安全カテゴリをまたいだ一発攻撃を可能にし、LCMの堅牢性を評価するための実用的なツールを提供する。
評価の結果,UNIATTACKはベースラインと比較して64.63\%-248.82\%の攻撃成功率(ASR)向上を実現し,ベースラインの0.03\%-4.96\%しか必要としないことがわかった。
UNIATTACKアーティファクトはhttps://anonymous.4open.science/r/UniAttack-Artifact-30F1で入手できる。
関連論文リスト
- ICL-EVADER: Zero-Query Black-Box Evasion Attacks on In-Context Learning and Their Defenses [8.57098009274006]
In-context Learning (ICL) は、大規模言語モデルを用いたテキスト分類において、強力なデータ効率のパラダイムとなっている。
In this present ICL-Evader, a novel black-box evasion attack framework which operating under a high practical zero-query threat model。
論文 参考訳(メタデータ) (2026-01-29T11:50:50Z) - A Survey on Model Extraction Attacks and Defenses for Large Language Models [55.60375624503877]
モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらす。
この調査は、抽出攻撃と防御攻撃の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。
モデル保護,データプライバシ保護,迅速なターゲット戦略に編成された防御機構について検討し,その効果を異なる展開シナリオで評価する。
論文 参考訳(メタデータ) (2025-06-26T22:02:01Z) - ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models [55.93380086403591]
生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。
$textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。
$textitELBA-Bench$は1300以上の実験を提供する。
論文 参考訳(メタデータ) (2025-02-22T12:55:28Z) - Prefix Guidance: A Steering Wheel for Large Language Models to Defend Against Jailbreak Attacks [27.11523234556414]
我々は,プリフィックスガイダンス(PG)という,プラグアンドプレイで容易に配置可能なジェイルブレイク防御フレームワークを提案する。
PGは、モデルの出力の最初の数個のトークンを直接設定することで、有害なプロンプトを特定するようモデルに誘導する。
3つのモデルと5つの攻撃方法におけるPGの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-15T14:51:32Z) - Raccoon: Prompt Extraction Benchmark of LLM-Integrated Applications [8.51254190797079]
本稿では,抽出攻撃に対するモデルの感受性を包括的に評価するRacoonベンチマークを提案する。
本手法は,無防備シナリオと防御シナリオの両方でモデルを評価する。
本研究は,防衛の欠如を契機に,盗難を助長するための普遍的感受性を強調し,保護時に顕著なレジリエンスを示すOpenAIモデルを示した。
論文 参考訳(メタデータ) (2024-06-10T18:57:22Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - MultiRobustBench: Benchmarking Robustness Against Multiple Attacks [86.70417016955459]
機械学習(ML)モデルに対するマルチアタックを検討するための,最初の統一フレームワークを提案する。
我々のフレームワークは、テストタイムの敵について異なるレベルの学習者の知識をモデル化することができる。
9種類の攻撃に対して16種類の防御モデルの有効性を評価した。
論文 参考訳(メタデータ) (2023-02-21T20:26:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。