論文の概要: One Goal, Many Commands: Characterizing Denylist Fragility in AI Agents
- arxiv url: http://arxiv.org/abs/2606.15549v2
- Date: Sat, 20 Jun 2026 22:26:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.086675
- Title: One Goal, Many Commands: Characterizing Denylist Fragility in AI Agents
- Title(参考訳): AIエージェントにおけるデニリストの脆弱性を特徴づける1つの目標と多くのコマンド
- Authors: Chuyang Chen, Zhiqiang Lin,
- Abstract要約: 端末AIエージェントはホストシステムと対話するためにシェルコマンドの実行に大きく依存する。
開発者がよく管理しているClaude Codeのビルトイン否定リストは、その有効性を無効にするコマンドをバイパスすることができる。
本稿では、端末AIエージェントにおけるコマンドデファクトリストの脆弱性を初めて体系的に評価する。
- 参考スコア(独自算出の注目度): 8.5338788749266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The adoption of AI agents is increasing rapidly. Terminal AI agents, i.e., AI agents that run in terminal environments, are a widely used type of AI agents. Terminal AI agents rely heavily on shell command execution to interact with the host systems. They adopt a three-list command-gating mechanism to mitigate security risks introduced by command execution, with denylists serving as the load-bearing component. However, modern operating systems often ship a large, ever-expanding set of shell commands with complex functionalities. Our observation is that even a built-in denylist of Claude Code, well-maintained by its developers, can overlook bypass commands that invalidate its effectiveness. Such negligence leads to fragile command denylists that cannot even block operations that practitioners expect them to block. This paper presents the first systematic characterization of command denylist fragility in terminal AI agents. The paper formalizes the command denylist fragility problem and proposes an LLM-driven pipeline, ShellSieve, to detect such fragility. It prompts the LLM to propose possible bypasses and iteratively repairs them using feedback from a validator that executes them in a sandbox. In the evaluation, we applied ShellSieve to 1,709 real-world command denylists (containing 13,332 denylist rules) collected from GitHub. The evaluation shows several key findings, including that 69.0--98.6% of the denylists are fragile, that this fragility occurs consistently across projects and agents, and the validity of several possible root causes for this fragility. Our pipeline and findings will hopefully facilitate future research and practice regarding the command denylists used by AI agents.
- Abstract(参考訳): AIエージェントの採用は急速に増加している。
ターミナルAIエージェント、すなわち端末環境で実行されるAIエージェントは、広く使われているタイプのAIエージェントである。
端末AIエージェントはホストシステムと対話するためにシェルコマンドの実行に大きく依存する。
彼らは、コマンド実行によって引き起こされるセキュリティリスクを軽減するために、3つのリストのコマンドゲーティングメカニズムを採用している。
しかし、現代のオペレーティングシステムは、しばしば複雑な機能を持つ大型で拡張されていないシェルコマンド群を出荷する。
私たちの観察によると、Claude Codeのビルトインのデファクトリストでさえ、開発者によってよく管理されているため、その有効性を無効にするコマンドをバイパスすることができる。
このような無視は、実践者がブロックすることを期待する操作をブロックすることができない脆弱なコマンド拒否リストにつながる。
本稿では、端末AIエージェントにおけるコマンドデファクトリストの脆弱性を初めて体系的に評価する。
本論文は,コマンドデファクトリストの脆弱性問題を定式化し,LLM駆動パイプラインであるShellSieveを提案し,その脆弱性を検出する。
LLMは、可能なバイパスを提案するよう促し、サンドボックスでそれらを実行するバリデータからのフィードバックを使って繰り返し修正する。
評価では、GitHubから収集した1,709個の実世界のコマンドデファクトリスト(13,332個のデファクトリストルールを含む)にShellSieveを適用した。
この評価は、69.0--98.6%の否定主義者が脆弱であり、この脆弱性はプロジェクトやエージェント間で一貫して発生し、この脆弱性に対するいくつかの根本原因の妥当性が示されている。
我々のパイプラインと発見は、AIエージェントが使用するコマンド拒否リストに関する将来の研究と実践を促進することを願っている。
関連論文リスト
- Securing LLM Agents Need Intent-to-Execution Integrity [49.490963596514185]
我々は, LLMエージェントの確保には, エージェントの実行がユーザの意図を忠実に反映した場合に規定するエンドツーエンドの正当性を定義する必要があると主張している。
LLMエージェントはコンパイラと構造的に類似しており、セキュリティ違反はユーザ意図を保存しない誤った実行に対応する。
emphTool整合性、emph命令整合性、emphJudgment整合性、emphData整合性。
論文 参考訳(メタデータ) (2026-05-16T12:53:31Z) - A Systematic Taxonomy of Security Vulnerabilities in the OpenClaw AI Agent Framework [9.723337441030283]
脆弱性は、(1)アーキテクチャレイヤ(実行ポリシー、ゲートウェイ、チャネル、サンドボックス、ブラウザ、プラグイン、エージェント/プロンプト)を反映するシステム軸、(2)攻撃軸、(アイデンティティスプーフィング、ポリシーバイパス、クロスレイヤー構成、即時注入、サプライチェーンエスカレーション)敵のテクニックを反映する。
我々は、アーキテクチャ層と信頼侵害タイプによって組織されたオープンソースのAIエージェントランタイムOpenClawに対して、190の勧告を提出した系統分類を提示する。
論文 参考訳(メタデータ) (2026-03-29T04:51:27Z) - AgentWall: A Runtime Safety Layer for Local AI Agents [0.0]
AgentWallは、ローカルAIエージェントのランタイム安全性と可観測性レイヤである。
ホスト環境に到達する前に提案されたすべてのエージェントアクションをインターセプトし、明示的な宣言的なポリシーで評価し、機密性の高い操作に対して人間の承認を必要とし、監査と再生のための完全な実行パスを記録します。
本稿では,AgentWallの設計,アーキテクチャ,脅威モデル,およびポリシーモデルについて述べる。
論文 参考訳(メタデータ) (2026-03-24T11:39:35Z) - Agent-Sentry: Bounding LLM Agents via Execution Provenance [4.306721924522171]
自然言語命令に基づく新しい機能を自律的に生成するエージェントコンピューティングシステムは、ますます普及しつつある。
非常に有能だが、これらのシステムは深刻なセキュリティ、プライバシー、安全上の懸念を提起する。
本稿では,エージェントシステムにこの問題に対処するためのフレームワークであるAgent-Sentryを提案する。
論文 参考訳(メタデータ) (2026-03-24T07:12:53Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Agent Skills Enable a New Class of Realistic and Trivially Simple Prompt Injections [24.46526203453932]
辺境のLLM会社はエージェントスキルを導入してこれを一歩進めた。
簡単なプロンプトインジェクションを可能にするため、基本的に安全でないことが示される。
我々は、機密データを抽出するために、長いエージェントスキルファイルや参照スクリプトに悪意のある命令を隠蔽する方法を実証する。
論文 参考訳(メタデータ) (2025-10-30T10:27:11Z) - "Your AI, My Shell": Demystifying Prompt Injection Attacks on Agentic AI Coding Editors [18.075392981522565]
攻撃者が悪質な指示で外部開発資源に毒を盛ることで、リモートでこれらのシステムを利用する方法を示す。
AIShellJackはエージェントAIコーディングエディタのインジェクション脆弱性を評価する自動テストフレームワークである。
評価の結果,攻撃成功率は悪意のあるコマンドを実行する場合,最大84%に達する可能性が示唆された。
論文 参考訳(メタデータ) (2025-09-26T08:20:54Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。