論文の概要: Scalable Hierarchical Attention Transformers for Multi-Turn Jailbreak Detection in Long Conversations
- arxiv url: http://arxiv.org/abs/2606.21082v1
- Date: Fri, 19 Jun 2026 04:05:43 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:18:07.622317
- Title: Scalable Hierarchical Attention Transformers for Multi-Turn Jailbreak Detection in Long Conversations
- Title(参考訳): 長期会話におけるマルチターンジェイルブレーク検出のためのスケーラブル階層型アテンション変換器
- Authors: Chenhui Hu, Muhammed Salih, Sudipto Guha, Subramanian Srinivasan,
- Abstract要約: マルチターンジェイルブレイクは、対話中に安全でない意図を広げることで、ターンレベルのモデレーションを回避することができる。
本稿では,高コストの長文結合を回避する効率的な階層型検出器を提案する。
提案手法は14,038会話のベンチマークで0.9394のF1を達成する。
- 参考スコア(独自算出の注目度): 1.8565979134741906
- License:
- Abstract: Multi-turn jailbreaks can evade turn-level moderation by spreading unsafe intent across a dialogue through gradual escalation, reframing, and role manipulation. We address multi-turn jailbreak detection as a conversation-level classification problem and introduce an efficient hierarchical detector that avoids expensive long-context concatenation while retaining cross-turn reasoning. The model encodes individual turns to form compact turn representations and applies a lightweight conversation module that captures dialogue dynamics and selectively attends to fine-grained evidence when needed. On a challenging evaluation benchmark of 14,038 conversations, our approach achieves an F1 of 0.9394, outperforming Claude Opus 4.7, the strongest competing baseline, by 0.07 while halving its false-positive rate. Ablation studies confirm that each architectural component contributes meaningfully, with combining cross-attention and self-attention in the conversation module yielding a 2.26 percentage point reduction in false-positive rate over the self-attention-only variant.
- Abstract(参考訳): マルチターンジェイルブレイクは、段階的なエスカレーション、リフレーミング、ロール操作を通じて、会話全体に安全でない意図を広げることで、ターンレベルのモデレーションを回避することができる。
マルチターンジェイルブレイク検出を対話レベルの分類問題として扱い,クロスターン推論を保ちながら高コストの長文結合を回避する効率的な階層型検出器を提案する。
モデルは個々のターンを符号化してコンパクトなターン表現を形成し、対話のダイナミクスをキャプチャし、必要に応じてきめ細かい証拠に選択的に出席する軽量な会話モジュールを適用する。
14,038対会話の挑戦的評価ベンチマークにおいて,提案手法はF1の0.9394を達成し,最強の競合ベースラインであるClaude Opus 4.7を0.07で上回り,偽陽性率を半減させた。
アブレーション研究は、各アーキテクチャコンポーネントが、会話モジュールにおけるクロスアテンションと自己アテンションを組み合わせることで、自己アテンションのみの変種よりも2.26ポイントの偽陽性率を減少させることで有意義に寄与することを確認する。
関連論文リスト
- Defending Jailbreak Attacks on Large Language Models via Manifold Trajectory Kinetics [50.36375380196006]
ジェイルブレイクプロンプトは、大規模な言語モデルにおけるアライメントガードレールをバイパスすることができる。
先行検出アプローチは固定距離空間に大きく依存する。
この仮定は,意図によって無視されるが,安全関連キーワードを含む疑似悪質なプロンプトの下で破られることを示す。
本稿では, LLM を入力を出力に変換する運動系として扱う Manifold Trajectory Kinetics (MTK) を提案する。
論文 参考訳(メタデータ) (2026-06-05T14:49:26Z) - One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework [51.50565654314582]
大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。
既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。
マルチターン命令追従能力を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T14:39:59Z) - M2S: Multi-turn to Single-turn jailbreak in Red Teaming for LLMs [8.91993614197627]
本稿では,マルチターン対逆ジェイルブレイクのプロンプトを単一ターンクエリに集約する新しいフレームワークを提案する。
マルチターン・ツー・シングルターン(M2S)手法は,多ターン対話を構造化シングルターンプロンプトに体系的に再構成する。
注目すべきは、シングルターンはオリジナルのマルチターン攻撃を最大17.5ポイント上回ったことである。
論文 参考訳(メタデータ) (2025-03-06T07:34:51Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。