論文の概要: Confidently Wrong: Severity-Aware Calibration of Prompt-Injection Detectors under Attack Shift
- arxiv url: http://arxiv.org/abs/2606.22659v1
- Date: Sun, 21 Jun 2026 20:30:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 07:51:05.004151
- Title: Confidently Wrong: Severity-Aware Calibration of Prompt-Injection Detectors under Attack Shift
- Title(参考訳): 確実な誤り:攻撃シフト下でのプロンプト注入検知器の重大性を考慮した校正
- Authors: Md Anas Biswas,
- Abstract要約: 私は、ProtectAI-v2とPrompt-Guard-2チェックポイントの3つの放出検出器を1つのソース校正閾値で評価した。
重大度指標Sを報告し、検知器が犯した攻撃に対する自信と、偽陰性率と差別を報告します。
3つとも間接的行動ヒジャック注入を確実に通過し、2つのベンダーに共通する盲点と4倍の大きさの範囲を達成します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt-injection detectors are deployed as guards: a model scores an input and a downstream system trusts or blocks it on that score. I study the confidence of these scores, not only their accuracy, when the attack distribution shifts away from the clean benchmark on which the operating point was chosen. I evaluate three released detectors, ProtectAI-v2 and two Prompt-Guard-2 checkpoints, at a single source-calibrated threshold that I freeze and transport across five shifts. I report a severity metric S, how confident a detector is on the attacks it misses, alongside the false-negative rate and discrimination. Across every shift and every detector, severity on the missed attacks stays between 0.99 and 1.00 while the false-negative rate ranges from 0.01 to 0.97: when these detectors miss, they miss with near-certainty. All three confidently pass indirect behavior-hijack injection, a blind spot unanimous across two vendors and a fourfold size range. Standard pooled calibration error does not register this; one detector it rates well-calibrated, at 0.06, is miscalibrated at 0.91 on the attacks alone. Run against live models, the missed injections leak the majority of working exploits, passing them at the rate they catch others. A controlled experiment traces the cause to content-keying rather than injection structure, an instruction-tuned model used as a judge shows the same hijack blind spot, and a black-box rewriter exploits the content-keying to manufacture working confident misses, most effectively on the most dangerous attack category. Code and data are public.
- Abstract(参考訳): モデルが入力をスコアし、下流のシステムがそのスコアを信頼またはブロックする。
動作点が選択されたクリーンなベンチマークから攻撃分布がずれた場合に、これらのスコアの信頼性だけでなく、その正確性についても検討する。
私は、放出された3つの検出器、ProtectAI-v2とPrompt-Guard-2チェックポイントを、1つのソース校正閾値で評価しました。
重大度指標Sを報告し、検知器が犯した攻撃に対する自信と、偽陰性率と差別を報告します。
あらゆるシフトと検知器を通して、失った攻撃の重大度は0.99から1.00までであり、偽陰性率は0.01から0.97までであり、これらの検出器が逃走した場合、ほぼ確実性に欠ける。
3つとも間接的行動ヒジャック注入を確実に通過し、2つのベンダーに共通する盲点と4倍の大きさの範囲を達成します。
標準のプール校正誤差は、このことを登録していない; ある検出器は、高い校正率0.06で、攻撃単独で0.91で誤校正される。
ライブモデルに対して実行され、失敗したインジェクションは、作業エクスプロイトの大部分をリークし、他の人を捕まえる速度でそれをパスする。
制御された実験は、インジェクション構造ではなく、コンテンツキーの原因を辿り、ジャッジとして使用される命令調整モデルが同じハイジャックブラインドスポットを示し、ブラックボックスリライターがコンテンツキーを利用して、動作中の確実なミスを製造し、最も効果的に最も危険な攻撃カテゴリで実行します。
コードとデータは公開されています。
関連論文リスト
- When Context Flips, Safety Breaks: Diagnosing Brittle Safety in Aligned Language Models [5.03712104249503]
安全ベンチマークスコアは、デプロイの準備が不完全な証拠を提供する。
整列言語モデルは、状況アップデートがどのアクションが安全かをひっくり返しても、厳格なルールに固執することが多い。
安全ベンチマーク全体で12のモデルと2つのコモンセンス制御を、名目上安全なアクションが害をもたらすペア付き変種を用いてテストする。
論文 参考訳(メタデータ) (2026-05-27T02:09:30Z) - Turning Bias into Bugs: Bandit-Guided Style Manipulation Attacks on LLM Judges [65.92623263645139]
LLM審査員を誤解させるためにセマンティクスを保存する編集を学習するブラックボックスの敵対的フレームワークであるBITEを紹介する。
BITEは65%を超える攻撃成功率を獲得し、9ポイントのスケールでスコアを1-2ポイント上げる。
LLM-as-a-judgeパラダイムの根本的な弱点を明らかにし,ロバストでアタック・アウェアな評価を動機づけた。
論文 参考訳(メタデータ) (2026-05-24T05:24:09Z) - Blind Spots in the Guard: How Domain-Camouflaged Injection Attacks Evade Detection in Multi-Agent LLM Systems [0.0]
LLMエージェントを保護するために配置された注入検出器は、自分自身をオーバーライドディレクティブとして発表する静的なテンプレートベースのペイロードで校正される。
対象文書のドメイン語彙や権限構造を模倣するペイロードが生成されると、標準検出器はそれをフラグ付けできない。
我々はこれをキャモフラージュ検出ギャップ (CDG) として定式化し, 静的ペイロードとカモフラージュペイロードの注入検出率の差について検討した。
論文 参考訳(メタデータ) (2026-05-21T04:58:11Z) - A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness [57.510025257780306]
既存の検証プロトコルは、レッドチーム固有の分散シフトを考慮できないことを示す。
我々は、より一貫して判断可能な振る舞いのベンチマークであるReliableBenchと、判断失敗を公開するために設計されたデータセットであるJiceStressTestを提案する。
論文 参考訳(メタデータ) (2026-02-04T15:13:35Z) - KoALA: KL-L0 Adversarial Detector via Label Agreement [9.360893727306324]
KoALAは、ディープニューラルネットワークのためのセマンティックスフリーの敵検出器である。
2つの相補的類似度指標からクラス予測が一致しない場合に、敵対攻撃を検出する。
KoALA は ResNet/CIFAR-10 の精度 0.94 とリコール 0.81 、CLIP/Tiny-ImageNet の精度 0.66 とリコール 0.85 を達成している。
論文 参考訳(メタデータ) (2025-10-14T17:33:00Z) - OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents [60.78202583483591]
コンピュータ使用エージェントの安全性を計測する新しいベンチマークであるOS-Harmを紹介する。
OS-HarmはOSWorld環境上に構築されており、故意のユーザ誤用、インジェクション攻撃、モデル誤動作の3つのカテゴリでモデルをテストすることを目指している。
我々は、フロンティアモデルに基づいてコンピュータ利用エージェントを評価し、その安全性に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-06-17T17:59:31Z) - Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
我々はこれらの成分を明示的に緩和することでTwT(Trigger without Trace)を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z) - Can We Leverage Predictive Uncertainty to Detect Dataset Shift and
Adversarial Examples in Android Malware Detection? [20.96638126913256]
我々は6つのキャリブレーション法で4つのオフ・ザ・シェルフ検出器を変換することで、24個のAndroidマルウェア検出器を再設計し、構築する。
データ不均衡を扱う3つの指標を含む9つの指標で、不確実性を定量化します。
予測された逆例のラベルに関連する不確かさを定量化することは、オープンな問題である。
論文 参考訳(メタデータ) (2021-09-20T16:16:25Z) - Non-Intrusive Detection of Adversarial Deep Learning Attacks via
Observer Networks [5.4572790062292125]
近年の研究では、深層学習モデルは逆入力に弱いことが示されている。
本稿では,主分類網を複数のバイナリ検出器で拡張することにより,逆入力を検出する新しい手法を提案する。
我々は、MNISTデータセットで99.5%、CIFAR-10データセットで97.5%の精度で検出する。
論文 参考訳(メタデータ) (2020-02-22T21:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。