論文の概要: Context-Fractured Decomposition Attacks on Tool-Using LLM Agents: Exploiting Artifact Provenance Gaps
- arxiv url: http://arxiv.org/abs/2606.09084v1
- Date: Mon, 08 Jun 2026 06:29:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.763778
- Title: Context-Fractured Decomposition Attacks on Tool-Using LLM Agents: Exploiting Artifact Provenance Gaps
- Title(参考訳): ツールを用いたLDMエージェントのコンテキストフラクチャー分解攻撃:爆発的アーティファクト発生ギャップ
- Authors: Xiaofeng Lin, Yukai Yang, Daniel Guo, Sahil Arun Nale, Charles Fleming, Guang Cheng,
- Abstract要約: ジェイルブレイクの防御は、孤立したテキストではなく、クロスステップの構成について理にかなっている必要がある。
ツール利用 LLM エージェントのデプロイ障害モード, 改善ギャップを運用する。
トレースレベルの診断で障害モードを計測し、検証可能な緩和方向を概説する。
- 参考スコア(独自算出の注目度): 10.07589034106101
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Tool-using LLM agents interact with the world through actions that persist state in artifacts (e.g., workspace files or logs). Consequently, jailbreak defenses must reason about cross-step composition rather than isolated text. Yet most existing attacks and defenses, including ``multi-turn'' jailbreaks such as Crescendo and Tree of Attacks,still assume a single contiguous conversation visible to the defender. This assumption breaks down in real agent pipelines, where enforcement is fragmented across tools, modules, and time, and where artifact provenance is often not tracked. We operationalize a deployment failure mode for tool-using LLM agents, the \emph{provenance gap}, and study reproducible triggers for it: \emph{Context-Fractured Decomposition} (CFD), a family of cross-context multi-step jailbreaks that preserve benign-looking intermediate artifacts from an early interaction and elicit harmful behavior much later, potentially in a different agent instance or workflow stage, via individually innocuous tool actions whose risk emerges only under delayed artifact-mediated composition. We instrument the failure mode with trace-level diagnostics and outline a verifiable mitigation direction (provenance lineage tagging). Across agent-system jailbreak benchmarks, CFD improves success rates by up to 28.3 percentage points over state-of-the-art baselines, even against strong single-turn judges. Disclaimer: This paper contains examples of harmful or offensive language.
- Abstract(参考訳): ツールを使用するLLMエージェントは、アーティファクト(ワークスペースファイルやログなど)の状態を持続するアクションを通じて、世界と対話する。
その結果、ジェイルブレイクの防御は、孤立したテキストではなく、クロスステップの構成について理にかなっている必要がある。
しかし、CrescendoやTree of Attacksのような'multi-turn'のような'multi-turn'のジェイルブレイクを含む既存の攻撃や防御は、防御者には単一の連続した会話を前提にしている。
この仮定は、実際のエージェントパイプラインで分解され、ツール、モジュール、時間にまたがって強制が断片化され、アーティファクトの成果が追跡されないことが多い。
ツール使用 LLM エージェントのデプロイ障害モード,‘emph{provenance gap} ,およびそれに対する再現可能なトリガの研究を行う。 \emph{Context-Fractured Decomposition} (CFD) は,早期のインタラクションから良質な中間アーティファクトを保護し,有害な行動を引き起こすクロスコンテキストの多段階ジェイルブレイクのファミリーである。
トレースレベルの診断で障害モードを実装し、検証可能な緩和方向(改善系統タグ付け)を概説する。
エージェント・システム・ジェイルブレイクのベンチマーク全体で、CFDは、強いシングルターン判事に対してさえ、最先端のベースラインよりも最大28.3%の成功率を向上させる。
Disclaimer: 有害な言語や攻撃的な言語の例を含む。
関連論文リスト
- Securing LLM Agents Need Intent-to-Execution Integrity [49.490963596514185]
我々は, LLMエージェントの確保には, エージェントの実行がユーザの意図を忠実に反映した場合に規定するエンドツーエンドの正当性を定義する必要があると主張している。
LLMエージェントはコンパイラと構造的に類似しており、セキュリティ違反はユーザ意図を保存しない誤った実行に対応する。
emphTool整合性、emph命令整合性、emphJudgment整合性、emphData整合性。
論文 参考訳(メタデータ) (2026-05-16T12:53:31Z) - OrchJail: Jailbreaking Tool-Calling Text-to-Image Agents by Orchestration-Guided Fuzzing [16.04943411061416]
OrchJailは、ツール呼び出しT2Iエージェントをジェイルブレイクするためのオーケストレーション誘導ファジリングフレームワークである。
当社の作業では、ツールオーケストレーションをクリティカルで、これまで探索されていなかったアタックサーフェスとして強調しています。
論文 参考訳(メタデータ) (2026-05-08T08:06:23Z) - TRUSTDESC: Preventing Tool Poisoning in LLM Applications via Trusted Description Generation [16.85010496624083]
大きな言語モデル(LLM)は、時間に敏感なタスクや実世界のアクションを実行するための外部ツールに依存している。
攻撃者は、悪意のある命令(明示的なTPA)を埋め込んでツール記述を操作したり、(単純なTPA)クレームを誤解してモデル動作やツール選択に影響を与える。
実装から信頼できるツール記述を自動的に生成することにより、ツール中毒を防止するための最初のフレームワークであるTRUSTDESCを提案する。
論文 参考訳(メタデータ) (2026-04-08T19:18:11Z) - AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents [31.649268608215817]
コンピュータ利用エージェントの有害行動を評価するベンチマークである textbfAgentHazard を提案する。
我々は、Qwen3、Kim、GLM、DeepSeekファミリーのほとんどをオープンまたはオープンにデプロイ可能なモデルを使用して、Claude Code、OpenClaw、IFlowを評価した。
論文 参考訳(メタデータ) (2026-04-03T10:29:31Z) - Internal Safety Collapse in Frontier Large Language Models [65.00730294617382]
この研究は、フロンティア大言語モデル(LLM)における重要な障害モードを特定する。
特定のタスク条件下では、モデルは有害なコンテンツを連続的に生成し、そうでなければ良質なタスクを実行する状態に入る。
有害なコンテンツを生成することが唯一有効な完了であるドメインタスクを通じてISCをトリガーするフレームワークであるTVDを紹介する。
論文 参考訳(メタデータ) (2026-03-04T12:55:34Z) - AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification [25.817251923574286]
大規模言語モデル(LLM)エージェントのための新しい推論時間検出・緩和フレームワークを提案する。
AgentSentryは、時間的因果的テイクオーバーとしてマルチターンIPIをモデル化する最初の推論時防御である。
我々は, textscAgentDojo ベンチマークにおいて, 4つのタスクスイート, 3つの IPI 攻撃ファミリー, 複数のブラックボックス LLM に対する AgentSentry の評価を行った。
論文 参考訳(メタデータ) (2026-02-26T07:59:10Z) - Unsafer in Many Turns: Benchmarking and Defending Multi-Turn Safety Risks in Tool-Using Agents [68.20752678837377]
本稿では,単一ターン有害なタスクを多ターン攻撃シーケンスに変換する基本的分類法を提案する。
この分類法を用いて,マルチターンツール使用エージェントの安全性を評価する最初のベンチマークであるMT-AgentRiskを構築した。
トレーニング不要で、ツールに依存しない、自己探索型防御ツールであるToolShieldを提案する。
論文 参考訳(メタデータ) (2026-02-13T18:38:18Z) - BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents [58.83028403414688]
大規模言語モデル(LLM)エージェントは、計画、メモリ、ツールの使用を組み合わせた多段階ワークフローを通じてタスクを実行する。
エージェントワークフローの特定のステージに注入されたバックドアトリガーは、複数の中間状態を通して持続し、下流出力に悪影響を及ぼす可能性がある。
LLMエージェントにおけるバックドア脅威を統一したエージェント中心のビューを提供するモジュールおよびステージアウェアフレームワークである textbfBackdoorAgent を提案する。
論文 参考訳(メタデータ) (2026-01-08T03:49:39Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。