論文の概要: Beyond Pass/Fail: Using Process Mining to Understand How LLMs Resist (and Fail) Red Team Attacks
- arxiv url: http://arxiv.org/abs/2606.07833v1
- Date: Fri, 05 Jun 2026 20:47:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.474669
- Title: Beyond Pass/Fail: Using Process Mining to Understand How LLMs Resist (and Fail) Red Team Attacks
- Title(参考訳): Beyond Pass/Fail: プロセスマイニングを使ってLLMがいかにしてレッドチーム攻撃に抵抗(そして失敗)するかを理解する
- Authors: Zvi Topol,
- Abstract要約: イベントログからプロセスモデルを発見し解析するための分野であるプロセスマイニングをレッド・チーム・トレースに適用することを提案する。
我々は,60 HarmBenchプロンプトをGPT-OSS 120BとLlama 3.3 70Bの2つのLDMに対して,1プロンプトあたり110回以上,10回の即発突然変異戦略を用いた制御実験を行った。
その結果得られた8,575のイベントから、直接フォローグラフ(DFG)と状態遷移行列を抽出し、ASR単独では見えない構造的に異なる防御プロファイルを明らかにした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Standard AI red teaming evaluations reduce adversarial campaigns to a single binary outcome, attack success rate (ASR), not taking into account the sequential structure of how models resist or yield to attacks. We propose applying process mining, a discipline for discovering and analyzing process models from event logs, to red teaming traces. We conduct a controlled experiment pitting 60 HarmBench prompts against two LLMs, GPT-OSS 120B and Llama 3.3 70B, using 10 prompt mutation strategies over up to 110 attempts per prompt. From the resulting 8,575 scored events we extract Directly-Follows Graphs (DFGs) and state transition matrices that reveal structurally distinct defense profiles invisible to ASR alone: GPT-OSS exhibits a near-absorbing refusal state, while Llama presents multiple porous escape routes from refusal to getting successfully jailbroken. We further show that mutator effectiveness is asymmetric across models and that time-to-jailbreak distributions differ by an order of magnitude.
- Abstract(参考訳): 標準的なAIレッドチーム評価は、モデルがどのように攻撃に抵抗するか、あるいは攻撃に屈するかというシーケンシャルな構造を考慮していない、単一のバイナリ結果、アタック成功率(ASR)に敵のキャンペーンを還元する。
イベントログからプロセスモデルを発見し解析するための分野であるプロセスマイニングをレッド・チーム・トレースに適用することを提案する。
我々は,60 HarmBenchプロンプトをGPT-OSS 120BとLlama 3.3 70Bの2つのLDMに対して,1プロンプトあたり110回以上,10回の即発突然変異戦略を用いた制御実験を行った。
結果として得られた8,575個のイベントから、直接フォローグラフ(DFG)と状態遷移行列を抽出し、ASRのみに見えない構造的に異なる防御プロファイルを明らかにする。
さらに、ミューテータの有効性はモデル間で非対称であり、時間とジェイルブレイクの分布は桁違いに異なることを示す。
関連論文リスト
- Localization then Neutralization: Gradient-guided Token Suppression against Visual Prompt Injection Attack [78.02110947708535]
敵対的なイメージは、プロンプトインジェクションを通じて、マルチモーダルな大規模言語モデルに深刻なセキュリティ上の脅威をもたらす。
敵の攻撃を成功させるには、画像全体を一様に依存するのではなく、重要な画像トークンの小さなサブセットに依存していることを示す。
本稿では,これらのトークンを勾配解析により局所化し,マスキングにより中和するグラディエントトークンマスキング(GTM)を提案する。
論文 参考訳(メタデータ) (2026-05-24T17:51:34Z) - Test-Time Training Undermines Safety Guardrails [53.00299679873018]
テスト時間トレーニング(TTT)は、モデルが推論中にパラメータを適応できるようにする新しいパラダイムである。
TTTの3つの脅威モデルを特定し、攻撃者が安全フィルタをバイパスする方法を実証する。
論文 参考訳(メタデータ) (2026-05-21T19:27:06Z) - The System Prompt Is the Attack Surface: How LLM Agent Configuration Shapes Security and Creates Exploitable Vulnerabilities [0.0]
PhishNChipsは、10の迅速な戦略に基づく11のモデルの研究である。
単一モデルのフィッシングバイパス速度は、設定方法によって1%未満から97%の範囲である。
高い予測信号に関するプロンプトの最適化により,ベンチマーク性能が向上することを示す。
論文 参考訳(メタデータ) (2026-03-26T05:48:37Z) - Mitigating Adversarial Attacks in LLMs through Defensive Suffix Generation [2.3080718283523827]
大規模言語モデル (LLM) は自然言語処理タスクにおいて優れた性能を示した。
わずかな入力摂動が有害または誤解を招く可能性のある敵攻撃。
勾配に基づく防御接尾辞生成アルゴリズムはLLMの堅牢性を高めるために設計されている。
論文 参考訳(メタデータ) (2024-12-18T10:49:41Z) - T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Language Model Unalignment: Parametric Red-Teaming to Expose Hidden
Harms and Biases [32.2246459413988]
Red-teamingは、モデルの安全行動をジェイルブレイクして、クエリの有害性を無視した有用なエージェントとして機能させることを目的としている。
我々は、安全研究、すなわち、Unalignmentを通してのレッドチームについて、新しい視点を提示する。
統一性はモデルパラメータを調整し、モデルの振舞いに深く根付いていないモデルガードレールを壊す。
論文 参考訳(メタデータ) (2023-10-22T13:55:46Z) - Detection and Mitigation of Byzantine Attacks in Distributed Training [24.951227624475443]
ワーカノードの異常なビザンチン挙動は、トレーニングを脱線させ、推論の品質を損なう可能性がある。
最近の研究は、幅広い攻撃モデルを検討し、歪んだ勾配を補正するために頑健な集約と/または計算冗長性を探究している。
本研究では、強力な攻撃モデルについて検討する:$q$ omniscient adversaries with full knowledge of the defense protocol that can change from iteration to iteration to weak one: $q$ randomly selected adversaries with limited collusion abilities。
論文 参考訳(メタデータ) (2022-08-17T05:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。