論文の概要: Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Evaluation
- arxiv url: http://arxiv.org/abs/2606.10749v1
- Date: Tue, 09 Jun 2026 12:01:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.479211
- Title: Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Evaluation
- Title(参考訳): 安全なLLMエージェントを目指して:脅威表面,攻撃,防御,評価
- Authors: Yuchen Ling, Shengcheng Yu, Zhenyu Chen, Chunrong Fang,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、会話インターフェースから、計画し、ツールを呼び出し、メモリを保守し、外部環境に作用するソフトウェアコンポーネントへと急速に移行している。
本稿では,情報フロー,委任権限,永続状態の相互作用に関するエージェントのセキュリティをモデル化するライフサイクルベースのシステム指向フレームワークを用いて,247の論文を合成する。
また, プロンプトインジェクションとツールによる制御-フローハイジャックが依然としてこの分野を支配しているのに対し, 永続的な状態破壊とマルチエージェントの伝播が中心的な関心事となっている。
- 参考スコア(独自算出の注目度): 13.654207263751156
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language model (LLM) agents are rapidly moving from conversational interfaces to software components that plan, invoke tools, maintain memory, and act on external environments. This transition changes the nature of security risk. In agentic settings, failures are no longer limited to unsafe text generation. Untrusted content may redirect control flow, misuse tool privileges, corrupt persistent state, leak sensitive information, or trigger harmful external actions. At the same time, research on LLM agent security is expanding quickly but remains fragmented across attack families, defense layers, application domains, and evaluation settings. This paper synthesizes 247 papers through a lifecycle-based, systems-oriented framework that models agent security around the interaction of information flow, delegated authority, and persistent state. We organize the literature around four questions: how LLM agent security should be modeled, which threat surfaces and attack families dominate, what defenses have been proposed and with what tradeoffs, and how security claims are evaluated. We find that prompt injection and tool-mediated control-flow hijacking still dominate the field, while persistent state corruption and multi-agent propagation are becoming central emerging concerns. We further find that current defenses provide useful building blocks but remain weakly compositional, and that existing benchmarks still underrepresent long-horizon, stateful, and deployment-sensitive risks. We argue that secure LLM agents require explicit trust boundaries, principled privilege control, provenance-aware state management, and evaluation practices aligned with realistic operational settings.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、会話インターフェースから、計画し、ツールを呼び出し、メモリを保守し、外部環境に作用するソフトウェアコンポーネントへと急速に移行している。
この移行はセキュリティリスクの性質を変える。
エージェント設定では、障害は安全でないテキスト生成に制限されない。
信頼できないコンテンツは、制御フローのリダイレクト、ツール特権の不正使用、破損した永続状態、機密情報の漏洩、有害な外部アクションの引き金となる可能性がある。
同時に、LLMエージェントのセキュリティの研究は急速に拡大しているが、攻撃ファミリー、防御層、アプリケーションドメイン、評価設定で断片化されている。
本稿では,情報フロー,委任権限,永続状態の相互作用に関するエージェントのセキュリティをモデル化するライフサイクルベースのシステム指向フレームワークを用いて,247の論文を合成する。
LLMエージェントのセキュリティをどのようにモデル化するか、どの脅威面や攻撃家族が支配するか、どんな防御策が提案されているのか、どのようなトレードオフが提案されているのか、セキュリティの主張がどのように評価されるのか、という4つの質問に関する文献を整理する。
また, プロンプトインジェクションとツールによる制御-フローハイジャックが依然としてこの分野を支配しているのに対し, 永続的な状態破壊とマルチエージェントの伝播が中心的な関心事となっている。
さらに、現在の防衛は有用なビルディングブロックを提供するが、構成が弱く、既存のベンチマークが依然として長期的、ステートフルで、デプロイに敏感なリスクを減らしていることもわかりました。
我々は、セキュアなLLMエージェントには、明示的な信頼境界、原則化された特権制御、証明対応状態管理、現実的な運用設定に沿った評価プラクティスが必要であると論じる。
関連論文リスト
- Securing LLM Agents Need Intent-to-Execution Integrity [49.490963596514185]
我々は, LLMエージェントの確保には, エージェントの実行がユーザの意図を忠実に反映した場合に規定するエンドツーエンドの正当性を定義する必要があると主張している。
LLMエージェントはコンパイラと構造的に類似しており、セキュリティ違反はユーザ意図を保存しない誤った実行に対応する。
emphTool整合性、emph命令整合性、emphJudgment整合性、emphData整合性。
論文 参考訳(メタデータ) (2026-05-16T12:53:31Z) - SafeAgent: A Runtime Protection Architecture for Agentic Systems [4.4767259565994495]
本稿では,エージェントの安全性をステートフルな意思決定問題として扱うランタイムセキュリティアーキテクチャであるSafeAgentを提案する。
提案した設計は、セマンティックリスク推論から2つの調整されたコンポーネントを通して実行ガバナンスを分離する。
Agent Security Bench (ASB) と InjecAgent の実験は、SafeAgent がベースラインとテキストレベルのガードレールメソッドよりもロバスト性を一貫して改善していることを示している。
論文 参考訳(メタデータ) (2026-04-19T18:02:21Z) - From Secure Agentic AI to Secure Agentic Web: Challenges, Threats, and Future Directions [20.73038673205127]
Secure Agentic AIからSecure Agentic Webへの移行指向のビューを提供する。
まず、素早い乱用、環境注入、メモリ攻撃、ツールチェーン乱用、モデル改ざん、エージェントネットワーク攻撃を含むコンポーネント対応の脅威分類を要約する。
次に、迅速なハードニング、安全に配慮したデコーディング、ツールとAPIの特権制御、ランタイム監視、継続的リチーム化、プロトコルレベルのセキュリティメカニズムなど、防衛戦略をレビューします。
論文 参考訳(メタデータ) (2026-03-02T07:44:18Z) - Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - Breaking Agent Backbones: Evaluating the Security of Backbone LLMs in AI Agents [36.2255033141489]
大規模言語モデル(LLM)を利用したAIエージェントが大規模にデプロイされているが、バックボーンLLMの選択がエージェントのセキュリティに与える影響について、体系的な理解が欠如している。
脅威スナップショット: 脆弱性が現れるエージェントの実行フロー内の特定の状態を分離するフレームワーク。
194331のユニークなクラウドソース攻撃に基づくセキュリティベンチマークである$operatornameb3$ベンチマークを構築するために,このフレームワークを適用した。
論文 参考訳(メタデータ) (2025-10-26T10:36:42Z) - The Dark Side of LLMs: Agent-based Attacks for Complete Computer Takeover [0.0]
大規模言語モデル(LLM)エージェントとマルチエージェントシステムは、従来のコンテンツ生成からシステムレベルの妥協まで及ぶセキュリティ脆弱性を導入している。
本稿では,自律エージェント内の推論エンジンとして使用されるLLMのセキュリティを総合的に評価する。
異なる攻撃面と信頼境界がどのように活用され、そのような乗っ取りを組織化できるかを示す。
論文 参考訳(メタデータ) (2025-07-09T13:54:58Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - LlamaFirewall: An open source guardrail system for building secure AI agents [0.5603362829699733]
大規模言語モデル(LLM)は、単純なチャットボットから複雑なタスクを実行できる自律エージェントへと進化してきた。
リスクを軽減するための決定論的解決策が欠如していることを考えると、リアルタイムガードレールモニターが不可欠である。
私たちはオープンソースのセキュリティにフォーカスしたガードレールフレームワークであるLlamaFirewallを紹介します。
論文 参考訳(メタデータ) (2025-05-06T14:34:21Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。