論文の概要: Hidden in Plain Sight: Benchmarking Agent Safety Against Decomposition Attacks with DECOMPBENCH
- arxiv url: http://arxiv.org/abs/2606.13994v1
- Date: Fri, 12 Jun 2026 00:30:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.693775
- Title: Hidden in Plain Sight: Benchmarking Agent Safety Against Decomposition Attacks with DECOMPBENCH
- Title(参考訳): DeCOMPBENCHによる解体攻撃に対するベンチマークエージェントの安全性
- Authors: Vikhyath Kothamasu, Virginia Smith, Chhavi Yadav,
- Abstract要約: DeCompBenchは、分解攻撃時のエージェント安全性を評価するために設計されたベンチマークである。
実験の結果, モノリシックな有害なタスクに対して, 最先端のエージェントは高い拒絶率を示すが, 変異に対する拒絶率は著しく低いことがわかった。
- 参考スコア(独自算出の注目度): 21.171990974350773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based Agents are becoming increasingly capable and widely deployed, creating growing incentives for adversarial misuse in the real-world. A key emerging threat is Decomposition Attacks \cite{glukhov2024breach, jones2024adversaries} in which a harmful task is broken into simpler, benign subtasks that evade safety mechanisms when executed separately but cumulatively fulfill the malicious intent. Although recent benchmarks assess agent safety in multi-turn and multi-tool-use settings, they do not explicitly capture this form of decompositional misuse and may not represent realistic adversarial execution flows. To this end, we introduce DeCompBench, a benchmark designed specifically to evaluate agentic safety under decomposition attacks. DeCompBench is created with a decomposition-by-design principle using a graphical framework and enables harmful task decomposition into individually benign and executable subtasks with realistic workflows. Our experiments using a custom decomposer show that state-of-the-art agents exhibit high refusal rates on monolithic harmful tasks, but significantly lower refusal rates on their decomposed variants, while often inadvertently fulfilling the adversarial objectives. These findings underscore the need for safety evaluations against decomposition attacks and corresponding defenses. Our dataset is publicly available and can be found at https://huggingface.co/datasets/decompositionbench/DeCompBench.
- Abstract(参考訳): LLMベースのエージェントは、ますます有能になり、広く展開され、現実世界における敵の誤用に対するインセンティブが増大している。
主要な脅威は分解攻撃(Decomposition Attacks \cite{glukhov2024breach, jones2024adversaries})であり、有害なタスクは、別々に実行されるが、悪意ある意図を累積的に満たすことなく安全メカニズムを回避する、より単純で良質なサブタスクに分解される。
最近のベンチマークでは、マルチターンおよびマルチツール使用時のエージェント安全性が評価されているが、この形式の分解誤用を明示的に捉えておらず、現実的な逆実行フローを表現していない可能性がある。
そこで本研究では,分解攻撃時のエージェント安全性を評価するためのベンチマークであるDeCompBenchを紹介する。
DeCompBenchはグラフィカルなフレームワークを使って分解・バイ・デザインの原則で作成され、現実的なワークフローで個別に良質で実行可能なサブタスクに有害なタスクの分解を可能にする。
従来型の除算器を用いた実験では, モノリシックな有害なタスクに対して, 最先端のエージェントは高い拒絶率を示すが, 分解された変数に対する拒絶率は著しく低く, 敵の目的を不注意に満たすことが多かった。
これらの結果は,分解攻撃と対応する防御に対する安全性評価の必要性を浮き彫りにした。
私たちのデータセットは公開されており、https://huggingface.co/datasets/decompositionbench/DeCompBenchで参照できます。
関連論文リスト
- Who Pays the Price? Stakeholder-Centric Prompt Injection Benchmarking for Real-world Web Agents [93.19140872946842]
大規模言語モデル(LLM)によって駆動されるWebエージェントは、現実の環境にますますデプロイされる。
これにより、一見良質なコンテンツがエージェントの振る舞いを操作する敵の命令を埋め込む、プロンプト・インジェクション・アタックに対して脆弱になる。
実世界のWebエージェントシステムにおいて,損害を体系的に分類し,属性付けするベンチマークである textbfsysname を導入する。
論文 参考訳(メタデータ) (2026-06-11T14:12:43Z) - Safety Context Injection: Inference-Time Safety Alignment via Static Filtering and Agentic Analysis [18.33590637095743]
大きな推論モデル(LRM)は複雑なタスクのパフォーマンスを改善するが、デプロイ時に安全性制御を難しくする。
ブラックボックスの設定では、ディフェンダーはモデルの重みを変更できず、代わりに推論時に介入しなければならない。
有害な意図は教育的あるいはロールプレイ的なフレーミングによって隠蔽され、深い安全分析は非自明なレイテンシを導入し、長い敵のコンテキストはより単純なフィルターが依存する局所的な手がかりを希薄化する。
安全コンテキスト注入(SCI)は、タスク生成から安全評価を分離し、保護された安全コンテキストとして構造化された外部リスクレポートをプリペイドする推論時フレームワークである。
論文 参考訳(メタデータ) (2026-05-12T07:23:02Z) - TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning [60.68349524623048]
分解されたジェイルブレイクは、大きな言語モデルにとって重大な脅威となる。
我々はステートフルなデュアルエンコーダ防御フレームワークであるTwinGateを紹介する。
我々は、8600の異なる悪意のある意図にまたがる360万以上の命令の包括的なデータセットを構築した。
論文 参考訳(メタデータ) (2026-04-30T13:44:01Z) - Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。
これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。
有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文 参考訳(メタデータ) (2026-03-02T22:01:08Z) - ICON: Indirect Prompt Injection Defense for Agents based on Inference-Time Correction [24.416258744287166]
ICONは、タスクの連続性を維持しながら攻撃を中和する、調査と軽減のためのフレームワークである。
ICONは競争力のある0.4%のASRを達成し、商業グレード検出器と一致し、50%以上のタスクユーティリティーゲインを得る。
論文 参考訳(メタデータ) (2026-02-24T09:13:05Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - How Brittle is Agent Safety? Rethinking Agent Risk under Intent Concealment and Task Complexity [55.441602598245744]
LLM駆動エージェントの現在の安全性評価は、主に原子害に焦点を当てており、悪意のある意図が複雑なタスクで隠されたり希釈されたりする高度な脅威に対処できなかった。
このギャップを,意図隠蔽とタスク複雑性の圧力下でのエージェントの安全性の脆さを二次元的に解析することで解決する。
目的が明確になるにつれて、安全アライメントは急激かつ予測的に低下し、「複雑パラドックス」が出現する。
論文 参考訳(メタデータ) (2025-11-11T17:27:27Z) - Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。
我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。
評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文 参考訳(メタデータ) (2025-06-06T17:33:33Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。