論文の概要: Defending Jailbreak Attacks on Large Language Models via Manifold Trajectory Kinetics
- arxiv url: http://arxiv.org/abs/2606.07335v1
- Date: Fri, 05 Jun 2026 14:49:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.792776
- Title: Defending Jailbreak Attacks on Large Language Models via Manifold Trajectory Kinetics
- Title(参考訳): Manifold Trajectory Kinetics による大規模言語モデルの脱獄攻撃
- Authors: Hangtao Zhang, Yucheng Zhao, Sishun Liu, Ziqi Zhou, Zeyu Ye, Wei Wan, Minghui Li, Shengshan Hu, Yanjun Zhang, Yi Liu, Leo Yu Zhang,
- Abstract要約: ジェイルブレイクプロンプトは、大規模な言語モデルにおけるアライメントガードレールをバイパスすることができる。
先行検出アプローチは固定距離空間に大きく依存する。
この仮定は,意図によって無視されるが,安全関連キーワードを含む疑似悪質なプロンプトの下で破られることを示す。
本稿では, LLM を入力を出力に変換する運動系として扱う Manifold Trajectory Kinetics (MTK) を提案する。
- 参考スコア(独自算出の注目度): 50.36375380196006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Jailbreak prompts can bypass alignment guardrails in large language models (LLMs) and elicit unsafe outputs, making reliable deployment-time detection critical. Prior detection approaches largely rely on a fixed metric space, e.g., raw inputs, gradients, or hidden features, in which benign and jailbreak prompts are linearly separable. We show this assumption breaks under (i) pseudo-malicious prompts that are benign by intent but contain safety-related keywords, and (ii) adaptive attacks that explicitly optimize against the deployed detector. To overcome this limitation, we shift our focus from identifying a universal metric space to analyzing the more robust neighborhood structure of the underlying data manifold. We present Manifold Trajectory Kinetics (MTK), which treats an LLM as a kinetic system transforming inputs into outputs and detects jailbreaks by tracking how a prompt's neighborhood structure evolves across layers. Benign prompts remain close to benign neighborhoods throughout inference, whereas jailbreak prompts exhibit a characteristic trajectory that begins near malicious seeds and later strategically shifts toward benign neighborhoods to evade refusal.Across four LLMs and ten jailbreak attacks, MTK achieves strong robustness to both failure modes: on pseudo-malicious prompts, it attains a jailbreak true positive rate of 95% at a false positive rate of 5% on benign prompts and 2% on pseudo-malicious prompts, and under adaptive attacks, it maintains a true positive rate of 85%. We further demonstrate the superior performance of MTK for jailbreak detection in vision-language models. Our code is available at https://github.com/Rookie143/mtk.
- Abstract(参考訳): Jailbreakプロンプトは、大規模な言語モデル(LLM)のアライメントガードレールをバイパスし、安全でない出力を誘発し、信頼性の高いデプロイメント時間検出が重要になる。
事前検出アプローチは、例えば生の入力、勾配、隠れた特徴といった固定された距離空間に大きく依存しており、良性および脱獄プロンプトは線形に分離可能である。
我々はこの仮定が破滅することを示す。
一 目的によって良心するが、安全に関するキーワードを含む擬似誤認のプロンプト
(ii) 配置された検出器に対して明示的に最適化する適応攻撃。
この制限を克服するために、我々は、普遍距離空間の特定から、基礎となるデータ多様体のより堅牢な近傍構造の分析へと焦点を移した。
本稿では,LLMを入力を出力に変換する運動系として扱うManifold Trajectory Kinetics (MTK)について述べる。
4つのLSMと10のジェイルブレイク攻撃において、MTKは両方の障害モードに対して強い堅牢性を実現している:擬似不正なプロンプトでは、偽偽のプロンプトでは5%、擬似不正なプロンプトでは2%の偽陽性率でジェイルブレイク真正率は95%、適応的な攻撃では85%である。
さらに,視覚言語モデルにおけるジェイルブレイク検出におけるMTKの優れた性能を示す。
私たちのコードはhttps://github.com/Rookie143/mtk.comから入手可能です。
関連論文リスト
- Jailbreaking Leaves a Trace: Understanding and Detecting Jailbreak Attacks from Internal Representations of Large Language Models [2.6140509675507384]
我々はセキュリティと解釈可能性の両方の観点からジェイルブレイクを研究する。
隠れアクティベーションにおける構造をキャプチャするテンソルベース潜在表現フレームワークを提案する。
以上の結果から,脱獄行動が内部構造に根ざしていることが示唆された。
論文 参考訳(メタデータ) (2026-02-12T02:43:17Z) - LLM Jailbreak Detection for (Almost) Free! [62.466970731998714]
大規模言語モデル(LLM)は、広く使用されている場合、アライメントを通じてセキュリティを高めるが、ジェイルブレイク攻撃の影響を受けない。
ジェイルブレイク検出方法は、他のモデルや複数のモデル推論の助けを借りて、ジェイルブレイク攻撃を緩和する。
本稿では,入力に対する肯定的な指示を前提としたフリージェイルブレイク検出(FJD)を提案する。
論文 参考訳(メタデータ) (2025-09-18T02:42:52Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。