論文の概要: Amplify, Don't Create: Temporal Accumulation for Slow-Burn Prompt Injection
- arxiv url: http://arxiv.org/abs/2606.20746v1
- Date: Wed, 17 Jun 2026 23:39:38 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:16:40.986032
- Title: Amplify, Don't Create: Temporal Accumulation for Slow-Burn Prompt Injection
- Title(参考訳): Amplify, Don't Create: Temporal Accumulation for Slow-Burn Prompt Injection
- Authors: J Alex Corll,
- Abstract要約: ツール使用エージェントに対するコントロールプレーン攻撃は、その代わりに、各イベントをしきい値以下に保ちながら、トラジェクトリにわたって弱いディレクティブを分散することができる。
我々は,プロキシ側時間アキュムレータが,凍結点当たりのスコアをピーク値とCUSUM永続化統計値に減らし,このスローバーン信号を回復するかどうかを検証した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Most prompt-injection detectors score a single event or message. Control-plane attacks against tool-using agents can instead distribute weak directives across a trajectory while keeping each event below threshold. We test whether a proxy-side temporal accumulator recovers this slow-burn signal by reducing frozen per-event scores to peak and CUSUM persistence statistics. To avoid circularity, grafts are generated against a held-out autoregressive cloaking target and then re-scored under a detector of record: a frozen char-ngram SVM plus an embedding-contrastive head. Only floor-met grafts bound to executed action edges and still sub-threshold under the detector of record enter the slow-burn endpoint. This is a boundary result, not a deployable detector. On concentrated attacks, trajectory-level accumulation beats the per-event foil under a clustered bootstrap (gap +0.092, 95% CI [+0.025, +0.155]), while persistence and peak are statistically tied. On git repo-exfil, density-four floor-met sub-threshold grafts add persistence mass that matched benign shams do not (persistence-delta AUC 0.708 over four attack survivors and six benign shams), while the matched peak-delta control does not separate attack from sham (AUC 0.417), localizing the effect to accumulated persistence rather than a single hot graft. The effect fails on broader clean-path actions (persistence-delta AUC 0.167), where the detector assigns attack and benign actions indistinguishable per-event scores, leaving no margin for CUSUM to bank. Independent powering is blocked by only three to four independent tasks. Temporal accumulation is therefore a narrow-band margin amplifier: it can bank elevated sub-threshold signal but cannot create margin where the per-event detector has none. As byproducts, we contribute a pseudo-replication warning and an independence-audit standard for agent-benchmark evaluation.
- Abstract(参考訳): ほとんどのプロンプトインジェクション検出器は単一のイベントまたはメッセージをスコアする。
ツール使用エージェントに対するコントロールプレーン攻撃は、その代わりに、各イベントをしきい値以下に保ちながら、トラジェクトリにわたって弱いディレクティブを分散することができる。
我々は,プロキシ側時間アキュムレータが,凍結点当たりのスコアをピーク値とCUSUM永続化統計値に減らし,このスローバーン信号を回復するかどうかを検証した。
円形を避けるため、保持された自己回帰的クローキングターゲットに対してグラフトを生成し、冷凍チャーングラムSVMと埋め込みコントラストヘッドとを記録検出器で再描画する。
フロアメタルグラフトだけが実行されたアクションエッジにバインドされ、レコード検出器の下のサブスレッドがスローバーンエンドポイントに入る。
これは境界結果であり、展開可能な検出器ではない。
集中攻撃では、軌跡レベルの蓄積がクラスタ化されたブートストラップ(gap +0.092, 95% CI [+0.025, +0.155])の下で1点当たりのホイルを破り、持続性とピークは統計的に結びついている。
git repo-exfilでは、密度4フロアメタルのサブスレッショルドグラフトが、良性シャムと一致しない持続質量(4人の攻撃生存者と6人の良性シャムに対して持続デルタAUC 0.708)を付加する一方、一致したピークデルタコントロールはシャムから攻撃を分離しない(AUC 0.417)。
この効果はより広いクリーンパス行動(パースペンス・デルタ AUC 0.167)で失敗し、検知器は攻撃を割り当て、一点当たりの識別不能なアクションを割り当て、CUSUMを銀行に残す余地は残らない。
独立したパワーは3から4つの独立したタスクによってブロックされる。
そのため、時間蓄積は狭帯域のマージン増幅器であり、昇華したサブスレッショルドシグナルをバンディングすることができるが、イベントごとの検出器が存在しないマージンを生成することはできない。
副産物として、エージェント・ベンチマーク評価のための擬似複製警告と独立監査基準を提供する。
関連論文リスト
- Quickest Detection of Hallucination Onset: Delay Bounds and Learned CUSUM Statistics [0.0]
幻覚のオンセット検出は 最も急激な変化検出問題です
因果リカレントラベル装置は、学習インクリメントを伴うCUSUMとして機能する。
低速アラームオンセット検出は困難である。
論文 参考訳(メタデータ) (2026-06-10T06:10:02Z) - The Distributed Detectability Band Against Marginal-Preserving Attacks [0.0]
AIコントロールは、個々のエージェントアクションをスコアし、誤った振る舞いを検出する。
本当の害は、多くの良心的なステップに分散することができ、各ステップ毎のアラームよりそれぞれ低い。
我々は、限界保存、相関符号化された分散サボタージュ攻撃を構築する。
論文 参考訳(メタデータ) (2026-06-09T06:04:30Z) - AEGIS: A Backup Reflex for Physical AI [0.0]
AEGISは、弱い政策の凍結活性化に対する軽量プローブを用いて高リスクステップを検出する選択的エスカレーション手法である。
プローブがステップをフラグすると、コントロールはより強力な分離ポリシーに切り替わるが、必要なステップのみに限られる。
LIBERO-Spatialでは、AIGISは10.1%のトラジェクトリを回復し、弱い政策だけでは負け、予算に適合したブラインドエスカレーションは4.6%、ランダムトリガーのプラセボは5.1%である。
論文 参考訳(メタデータ) (2026-06-04T19:09:22Z) - The Saturation Trap and the Subjectivity of Intervention Timing: Why Affect-Based Triggers and LLM Judges Fail to Time Interventions on Autonomous Agents [0.0]
インターベンションタイミングは信頼性の低い構造であり、シングルアノテータF1を不適切な最適化ターゲットとする。
我々の貢献は、人間のレータ間の信頼性、4つの検出器アーキテクチャ、モデルのLEM-judgeスイープ、再現された飽和効果にまたがるこの問題を、共同でマッピングすることである。
論文 参考訳(メタデータ) (2026-06-02T23:54:27Z) - ESPO: Early-Stopping Proximal Policy Optimization [78.79610718910628]
ESPO(Early-Stopping Proximal Policy Optimization)は、軌道上の障害を検出し、ロールアウトを早期に終了する。
DeepSeek-R1-Distill-Qwen-7Bでは、ESPOはAIME2024(46.28%対45.25%)、AMC2023(85.83%対82.94%)、MATH-500(87.42%対85.43%)でPPOを上回っている。
論文 参考訳(メタデータ) (2026-05-28T12:40:22Z) - Localization then Neutralization: Gradient-guided Token Suppression against Visual Prompt Injection Attack [78.02110947708535]
敵対的なイメージは、プロンプトインジェクションを通じて、マルチモーダルな大規模言語モデルに深刻なセキュリティ上の脅威をもたらす。
敵の攻撃を成功させるには、画像全体を一様に依存するのではなく、重要な画像トークンの小さなサブセットに依存していることを示す。
本稿では,これらのトークンを勾配解析により局所化し,マスキングにより中和するグラディエントトークンマスキング(GTM)を提案する。
論文 参考訳(メタデータ) (2026-05-24T17:51:34Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - Time Is All It Takes: Spike-Retiming Attacks on Event-Driven Spiking Neural Networks [87.16809558673403]
スパイキングニューラルネットワーク(SNN)は離散スパイクで計算し、時間構造を利用する。
イベント駆動SNNにおけるスパイク数と振幅を保存しながら、既存のスパイクを繰り返すタイミングのみの敵について検討する。
論文 参考訳(メタデータ) (2026-02-03T09:06:53Z) - DiffAttack: Evasion Attacks Against Diffusion-Based Adversarial
Purification [63.65630243675792]
拡散に基づく浄化防御は拡散モデルを利用して、敵の例の人工摂動を除去する。
近年の研究では、先進的な攻撃でさえ、そのような防御を効果的に破壊できないことが示されている。
拡散型浄化防衛を効果的かつ効率的に行うための統合フレームワークDiffAttackを提案する。
論文 参考訳(メタデータ) (2023-10-27T15:17:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。