論文の概要: Red-Teaming the Agentic Red-Team
- arxiv url: http://arxiv.org/abs/2606.24496v1
- Date: Tue, 23 Jun 2026 12:27:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.940916
- Title: Red-Teaming the Agentic Red-Team
- Title(参考訳): エージェントレッドチームのレッドチーム化
- Authors: Dario Pasquini, Michal Bazyli, Taras Fedynyshyn, Artem Sorokin,
- Abstract要約: 本稿では,攻撃的セキュリティ運用において最も広く利用されているエージェントシステムの詳細なセキュリティ分析について紹介する。
これらのツールのほとんどは共通の設計上の欠陥を共有しており、アクティブな敵がAPIキーを抽出できることを示している。
分析を支援するために,エージェントシステムのための完全なサイバーキラーチェーンを導入する。
- 参考スコア(独自算出の注目度): 4.704992432252234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of agentic systems to perform offensive security operations has moved from a theoretical possibility to a commoditized capability. However, while the community has focused on creating more and more capable agents, less attention has been allocated to assessing the security of those systems. In this work, we present the first in-depth security analysis of the most widely used agentic systems for offensive security operations. We show that most of these tools share common design flaws that enable an active adversary to exfiltrate API keys, establish persistent footholds, and fully compromise the operator's machine, even when the agent operates inside a sandboxed container. To support our analysis, we introduce a full cyber kill chain for such agentic systems, capturing the progression from initial LLM manipulation to lateral movement, persistence, guardrail bypass, and sandbox escape. Building on our security analysis, we derive a robust architecture for agentic offensive-security tools and propose actionable, broadly applicable design principles that mitigate the disclosed attack paths at the architectural level.
- Abstract(参考訳): 攻撃的なセキュリティ運用を行うためのエージェントシステムの使用は、理論的可能性からコモディティ化された能力へと移行してきた。
しかし、コミュニティはより有能なエージェントの開発に注力してきたが、これらのシステムのセキュリティ評価にはあまり注意が払われていない。
本研究では,攻撃的セキュリティ運用において最も広く利用されているエージェントシステムについて,詳細なセキュリティ分析を行った。
これらのツールのほとんどは共通の設計上の欠陥を共有しており、エージェントがサンドボックスコンテナ内で動作している場合でも、アクティブな敵がAPIキーを抽出し、永続的な足場を確立し、オペレータのマシンを完全に侵害することができる。
分析を支援するために, エージェントシステムのための完全なサイバーキラーチェーンを導入し, 初期のLSM操作から横移動, 永続性, ガードレールバイパス, サンドボックス脱出まで, 進展を捉えた。
当社のセキュリティ分析に基づいて、エージェント攻撃セキュリティツールの堅牢なアーキテクチャを導き、アーキテクチャレベルでの攻撃経路を緩和する実行可能な、広く適用可能な設計原則を提案します。
関連論文リスト
- AgentLens: Interpretable Safety Steering via Mechanistic Subspaces for Multi-Turn Coding Agent [53.82005364479556]
大規模言語モデル(LLM)に基づく符号化エージェントは、驚くべき自律性を示す。
既存の安全機構は主に外部ガードレールに依存している。
我々は,ランタイムの安全性検出と表現レベルの緩和を行う,ホワイトボックスの防御フレームワークであるAgentLensを提案する。
論文 参考訳(メタデータ) (2026-06-21T21:13:55Z) - Toward Securing AI Agents Like Operating Systems [13.41373985756433]
汎用技術として,大規模言語モデル(LLM)に基づく自律エージェントが急速に出現している。
オペレーティングシステムのレンズによるLCMエージェントのセキュリティについて検討する。
エージェントシステムの安全な設計のための一連の勧告で締めくくります。
論文 参考訳(メタデータ) (2026-05-14T15:07:25Z) - DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents [121.77550256034]
DecodingTrust-Agent Platform (DTap)は、AIエージェントのためのコントロール可能でインタラクティブなレッドチームプラットフォームである。
DTap-Redは、多様なインジェクションベクターを探索し、効果的な攻撃戦略を自律的に発見する、最初の自律的赤チームエージェントである。
DTapを通じて、さまざまなバックボーンモデル上に構築された一般的なAIエージェントの大規模評価を行う。
論文 参考訳(メタデータ) (2026-05-06T11:59:48Z) - Uncovering Security Threats and Architecting Defenses in Autonomous Agents: A Case Study of OpenClaw [42.9467373594646]
本報告では,OpenClawエコシステムの総合的なセキュリティ分析について述べる。
我々は、インジェクション駆動のRemote Code Execution(RCE)、シーケンシャルツールアタックチェーン、コンテキスト記憶、サプライチェーン汚染などの重要な脆弱性を強調した。
これらのシステム的アーキテクチャ欠陥に対処するために、フルライフサイクルエージェントセキュリティアーキテクチャ(FASA)を導入します。
この理論的な防御青写真は、ゼロトラストエージェント実行、動的意図検証、および層間推論-作用相関を提唱している。
論文 参考訳(メタデータ) (2026-03-13T04:33:05Z) - OMNI-LEAK: Orchestrator Multi-Agent Network Induced Data Leakage [59.3826294523924]
オーケストレータ設定として知られる,一般的なマルチエージェントパターンのセキュリティ脆弱性について検討する。
本報告では,フロンティアモデルの攻撃カテゴリに対する感受性を報告し,推論モデルと非推論モデルの両方が脆弱であることが確認された。
論文 参考訳(メタデータ) (2026-02-13T21:32:32Z) - Indirect Prompt Injections: Are Firewalls All You Need, or Stronger Benchmarks? [58.48689960350828]
エージェントインタフェースにおけるシンプルでモジュール的で,モデルに依存しないディフェンスが,高ユーティリティで完全なセキュリティを実現することを示す。
ツール入力ファイアウォール(最小限のファイアウォール)とツール出力ファイアウォール(サニタイザ)の2つのファイアウォールをベースとしたディフェンスを採用している。
論文 参考訳(メタデータ) (2025-10-06T18:09:02Z) - Cuckoo Attack: Stealthy and Persistent Attacks Against AI-IDE [64.47951172662745]
Cuckoo Attackは、悪意のあるペイロードを構成ファイルに埋め込むことで、ステルス性と永続的なコマンド実行を実現する新しい攻撃である。
攻撃パラダイムを初期感染と持続性という2つの段階に分類する。
当社は、ベンダーが製品のセキュリティを評価するために、実行可能な7つのチェックポイントを提供しています。
論文 参考訳(メタデータ) (2025-09-19T04:10:52Z) - Agent Safety Alignment via Reinforcement Learning [29.759393704688986]
ツール・ユース・エージェントのための一貫した安全アライメント・フレームワークを提案する。
我々は、良識、悪意があり、ユーザープロンプトとツール応答の両方に敏感な三段階分類を導入する。
その結果,安全性と有効性は共同で最適化できることが示唆された。
論文 参考訳(メタデータ) (2025-07-11T02:34:16Z) - LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。
AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-29T21:39:08Z) - The Hidden Dangers of Browsing AI Agents [0.0]
本稿では,複数のアーキテクチャ層にまたがるシステム的脆弱性に着目し,このようなエージェントの総合的なセキュリティ評価を行う。
本研究は,ブラウジングエージェントのエンド・ツー・エンドの脅威モデルについて概説し,実環境への展開を確保するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-05-19T13:10:29Z) - From Assistants to Adversaries: Exploring the Security Risks of Mobile LLM Agents [17.62574693254363]
モバイル大言語モデル(LLM)の総合的セキュリティ解析について紹介する。
言語ベースの推論,GUIベースのインタラクション,システムレベルの実行という,3つのコア機能領域にわたるセキュリティ上の脅威を特定します。
分析の結果,11個の異なる攻撃面が明らかとなり,それぞれが移動型LDMエージェントのユニークな機能と相互作用パターンに根ざしていることがわかった。
論文 参考訳(メタデータ) (2025-05-19T11:17:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。