論文の概要: DoubtProbe: Black-Box Jailbreak Defense via Structural Verification and Semantic Auditing
- arxiv url: http://arxiv.org/abs/2606.16527v1
- Date: Mon, 15 Jun 2026 10:30:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.455721
- Title: DoubtProbe: Black-Box Jailbreak Defense via Structural Verification and Semantic Auditing
- Title(参考訳): DoubtProbe: 構造検証とセマンティック監査によるブラックボックス・ジェイルブレイク防衛
- Authors: Xuanyu Yin, Yilin Jiang, Jun Zhou, Kai Chen, Zhengfu Cao, Xiaolei Dong,
- Abstract要約: ブラックボックスのジェイルブレイク防衛は重要な実務問題となっている。
本論文では,デュアルブランチ推論時防衛フレームワークであるDoubtProbeを提案する。
我々は,jailbreak と beign-request ベンチマークにおける代表的なブラックボックス防御に対する DoubtProbe の評価を行った。
- 参考スコア(独自算出の注目度): 16.91220273436945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) are increasingly deployed in user-facing systems, black-box jailbreak defense has become an important practical problem. Existing defenses often rely on known-attack coverage, prompt-level semantic judgment, or local runtime control, yet these paths can become unstable under evolving prompt packaging, expression rewriting, and structure manipulation. We observe that many black-box jailbreaks do not remove the harmful goal, but reorganize the information needed to express and execute it, thereby evading safety alignment while remaining recoverable during generation. Motivated by this observation, we propose DoubtProbe, a dual-branch inference-time defense framework that combines structural verification with semantic auditing and formulates black-box jailbreak defense as consistency checking under controlled transformation. The structural branch extracts a structured representation from the original request, reconstructs the request under representation constraints, and detects information-preservation failures between the original and reconstructed requests; the semantic branch audits the original prompt directly. We evaluate DoubtProbe against representative black-box defenses on jailbreak and benign-request benchmarks, and further test backbone transfer from Qwen2.5-72B to Llama-3.1-70B. Results show that DoubtProbe achieves a stronger and more stable defense-utility trade-off: on Qwen2.5-72B, it reduces the JBB attack success rate from 0.293 to 0.100 and the CodeAttack attack success rate from 0.152 to 0.001, while maintaining false positive rates of 0.022 and 0.016 on AlpacaEval and OR-Bench; the same pattern remains stable on Llama-3.1-70B. These findings show that structural inconsistency signals provide a practical and generalizable basis for black-box jailbreak defense, especially when combined with semantic auditing.
- Abstract(参考訳): 大規模言語モデル(LLM)がユーザ対応システムにますます導入されるにつれて、ブラックボックスのジェイルブレイク防御は重要な実用上の問題となっている。
既存の防御は、しばしば既知の攻撃カバレッジ、即時レベルのセマンティック判断、あるいはローカルランタイム制御に依存しているが、これらのパスは、進化する迅速なパッケージング、式書き換え、構造操作によって不安定になる可能性がある。
多くのブラックボックス・ジェイルブレイクは有害なゴールを排除しないが、表現と実行に必要な情報を再構成し、世代毎に復元可能な安全アライメントを回避する。
本報告では, セマンティック監査と構造検証を組み合わせ, 制御された変換の下での整合性チェックとしてブラックボックスジェイルブレイク防御を定式化する, 二重ブランチ推論時防衛フレームワークであるDoubtProbeを提案する。
構造分岐は、元の要求から構造化された表現を抽出し、表現制約の下で要求を再構成し、元の要求と再構成された要求の間の情報保存障害を検出し、意味分岐は元のプロンプトを直接監査する。
我々は,ジェイルブレイクとベニグリクエストベンチマークにおける代表的なブラックボックス防御に対するDoubtProbeの評価を行い,さらにQwen2.5-72BからLlama-3.1-70Bへのバックボーンの移動試験を行った。
Qwen2.5-72Bでは、JBB攻撃成功率0.293から0.100、CodeAttack攻撃成功率0.152から0.001、AlpacaEvalおよびOR-Benchでは0.022と0.016の偽陽性率を維持しながら、同じパターンがLlama-3.1-70Bで安定している。
これらの結果から, 構造的不整合信号は, 特に意味監査と組み合わせた場合, ブラックボックス・ジェイルブレイク防御の実用的, 一般化可能な基礎となることが示唆された。
関連論文リスト
- Defending Jailbreak Attacks on Large Language Models via Manifold Trajectory Kinetics [50.36375380196006]
ジェイルブレイクプロンプトは、大規模な言語モデルにおけるアライメントガードレールをバイパスすることができる。
先行検出アプローチは固定距離空間に大きく依存する。
この仮定は,意図によって無視されるが,安全関連キーワードを含む疑似悪質なプロンプトの下で破られることを示す。
本稿では, LLM を入力を出力に変換する運動系として扱う Manifold Trajectory Kinetics (MTK) を提案する。
論文 参考訳(メタデータ) (2026-06-05T14:49:26Z) - Revisiting JBShield: Breaking and Rebuilding Representation-Level Jailbreak Defenses [1.5927806443377646]
本稿では,GCGの目的を,コサイン類似性による拒絶方向抑制と有毒な概念正則化という2つの用語を組み合わせて調整するJB-GCGを提案する。
Llama-3-8Bの5つの構成で、JB-GCGは平均46.2%のASRを達成し、最強の環境では53.4%に達する。
本稿では,多層リファレンス指紋上でのマハラノビス異常検出に基づく新しい防御法であるトラジェクトリ検証(RTV)を導入する。
論文 参考訳(メタデータ) (2026-05-04T19:17:50Z) - TrajGuard: Streaming Hidden-state Trajectory Detection for Decoding-time Jailbreak Defense [22.678364306206493]
既存のジェイルブレイク防御パラダイムは、プロンプト、出力、内部状態の静的検出に依存している。
復号時に重要な層に隠された状態は、入力されたジェイルブレイクのプロンプトよりも強く、より安定したリスク信号を持っていることを示す。
トレーニング不要でデコード可能なディフェンスフレームワークであるTrajGuardを提案する。
論文 参考訳(メタデータ) (2026-04-09T02:22:44Z) - Jailbreaking Leaves a Trace: Understanding and Detecting Jailbreak Attacks from Internal Representations of Large Language Models [2.6140509675507384]
我々はセキュリティと解釈可能性の両方の観点からジェイルブレイクを研究する。
隠れアクティベーションにおける構造をキャプチャするテンソルベース潜在表現フレームワークを提案する。
以上の結果から,脱獄行動が内部構造に根ざしていることが示唆された。
論文 参考訳(メタデータ) (2026-02-12T02:43:17Z) - TrapSuffix: Proactive Defense Against Adversarial Suffixes in Jailbreaking [52.72486831074384]
サフィックスベースのジェイルブレイク攻撃は、敵のサフィックス、すなわち短いトークンシーケンスを付加し、LLMを安全でない出力にステアリングする。
提案するTrapSuffixは,推論パイプラインを変更することなく,トラップアラインな動作をベースモデルに注入する,軽量な微調整手法である。
様々なサフィックスベースのジェイルブレイク設定で、TrapSuffixは平均攻撃成功率を0.01%以下に下げ、平均追跡成功率87.9%を達成する。
論文 参考訳(メタデータ) (2026-02-06T11:43:56Z) - ALERT: Zero-shot LLM Jailbreak Detection via Internal Discrepancy Amplification [47.135407245022115]
既存の検出方法は、トレーニングデータに存在するジェイルブレイクテンプレートに依存するジェイルブレイクステータスを主に検出する。
本稿では,階層的に,モジュール単位で,トークン単位での増幅フレームワークを提案する。
これらの知見に基づいて、効率的なゼロショットジェイルブレイク検出器であるALERTを導入する。
論文 参考訳(メタデータ) (2026-01-07T05:30:53Z) - JPU: Bridging Jailbreak Defense and Unlearning via On-Policy Path Rectification [18.505062396846565]
大規模言語モデル(LLM)は、しばしばジェイルブレイク攻撃に失敗する。
我々は、安全アンカーへの動的ジェイルブレイクパスの修正のために、$textbfJ$ailbreak $textbfP$ath $textbfU$nlearning (JPU)を提案する。
論文 参考訳(メタデータ) (2026-01-06T13:30:10Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。
JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。