論文の概要: The Emergence of Autonomous Penetration Capabilities in Large Language Model-Powered AI Systems
- arxiv url: http://arxiv.org/abs/2606.13079v1
- Date: Thu, 11 Jun 2026 09:02:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.687286
- Title: The Emergence of Autonomous Penetration Capabilities in Large Language Model-Powered AI Systems
- Title(参考訳): 大規模言語モデル駆動型AIシステムにおける自律的浸透能力の出現
- Authors: Jiaqi Luo, Jiarun Dai, Zhile Chen, Jia Xu, Weibing Wang, Yawen Duan, Brian Tse, Geng Hong, Xudong Pan, Yuan Zhang, Min Yang,
- Abstract要約: AIシステムの自律的な侵入能力を評価するために、ますます多くの研究が進められている。
ターゲットサーバとエージェントスキャフォールディングの2つのコンポーネントで構成される,新たな自律的浸透評価フレームワークを構築した。
現在のモデルでは、浸透率は10.7%から69.3%に達する。
- 参考スコア(独自算出の注目度): 21.83197937022436
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Nowadays, the autonomous execution of cyberattacks capable of causing substantial real-world harm is widely regarded as one of the critical red lines that frontier AI systems must not cross. Within this broader red-line scenario, autonomous penetration represents a core enabling capability and subtask: the ability of LLM-powered AI systems to independently conduct adversarial operations against a target server without human intervention, identify and exploit vulnerabilities, and obtain unauthorized access or control. A growing body of work has sought to assess the autonomous penetration capabilities of AI systems. However, existing evaluations often employ opaque methodologies, rely on unrealistic or overly simplified penetration-testing scenarios, or provide LLMs with excessive prior knowledge and task-specific guidance, and cannot accurately capture the extent to which modern AI systems can autonomously perform this core capability within broader high-impact cyberattack scenarios. To address these limitations, we construct a new autonomous penetration evaluation framework consisting of two components: target servers and agent scaffolding. Specifically, on the target-server side, we design two levels of target environments based on the number of secure services without known vulnerabilities deployed alongside a vulnerable service: Tier~1 (one secure service) and Tier~2 (three secure services), resulting in a total of 300 target servers. Meanwhile, the agent scaffolding adopts a general-purpose agent architecture equipped with a set of general-purpose cybersecurity tools, without any target-specific prior knowledge. We evaluate 19 open-weight and proprietary LLMs, and find that current models achieve penetration success rates ranging from 10.7% to 69.3%. Moreover, we observe that autonomous penetration capability continues to improve alongside advances in overall model capability.
- Abstract(参考訳): 今日では、大規模な現実世界の害をもたらすサイバー攻撃を自律的に実行することは、フロンティアAIシステムが交差してはいけない重要な赤線の一つとして広く見なされている。
この広範なレッドラインのシナリオの中で、自律的な侵入は、中核的な能力とサブタスクを表しています。LLMベースのAIシステムが、人間の介入なしにターゲットサーバに対して独立して敵の操作を実行し、脆弱性を特定し、悪用し、不正なアクセスや制御を得る能力です。
AIシステムの自律的な侵入能力を評価するために、ますます多くの研究が進められている。
しかし、既存の評価では、しばしば不透明な方法論を採用し、非現実的あるいは過度に単純化された侵入テストシナリオに依存したり、過剰な事前知識とタスク固有のガイダンスを備えたLLMを提供し、より大規模なサイバー攻撃シナリオにおいて、現代のAIシステムがこのコア機能を自律的に実行できる範囲を正確に把握できない。
これらの制約に対処するため、ターゲットサーバとエージェントスキャフォールディングの2つのコンポーネントからなる、新しい自律的浸透評価フレームワークを構築した。
具体的には、ターゲットサーバ側で、脆弱性のあるサービスと一緒にデプロイされた既知の脆弱性のないセキュアなサービスの数に基づいて、2レベルのターゲット環境を設計します。
一方、エージェントスキャフォールディングでは、ターゲット固有の事前知識を必要とせず、汎用サイバーセキュリティツールセットを備えた汎用エージェントアーキテクチャを採用する。
オープンウェイトでプロプライエタリなLLMを19種類評価し、現在のモデルでは10.7%から69.3%の浸透率を達成した。
さらに、モデル全体の能力の向上とともに、自律的な浸透能力が向上し続けることを観察する。
関連論文リスト
- CyberGym-E2E: Scalable Real-World Benchmark for AI Agents' End-to-End Cybersecurity Capabilities [66.48570184296857]
CyberGym-E2Eは大規模かつ現実的なエンドツーエンドのサイバーセキュリティベンチマークである。
脆弱性発見、PoC生成、パッチ生成の全ライフサイクルにわたって、AIエージェントの能力を包括的に評価する。
ベンチマークは、139の異なるオープンソースプロジェクトで920の現実世界の脆弱性で構成されている。
論文 参考訳(メタデータ) (2026-06-03T05:06:37Z) - Threat Modeling for AI: The Case for an Asset-Centric Approach [0.23408308015481666]
AIシステムは、自律的にコードを実行し、外部システムと対話し、人間の監視なしに運用することが可能になった。
AIシステムが自律的にコードを実行し、外部システムと対話し、人間の監視なしに運用できるようになったことで、従来のセキュリティアプローチは不足する。
本稿では、脅威モデリングAIシステムのための資産中心の方法論を紹介する。
論文 参考訳(メタデータ) (2025-05-08T18:57:08Z) - Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [68.36528819227641]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのロバスト性を体系的に評価する。
本研究では,ロボット行動の不安定化に空間的基盤を活用する2つの未目標攻撃目標と,ロボット軌道を操作する目標攻撃目標を導入する。
我々は、カメラの視野に小さなカラフルなパッチを配置し、デジタルと物理の両方の環境で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文 参考訳(メタデータ) (2024-11-18T01:52:20Z) - Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。
LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。
この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文 参考訳(メタデータ) (2024-05-27T17:59:43Z) - On the Vulnerability of LLM/VLM-Controlled Robotics [54.57914943017522]
大規模言語モデル(LLM)と視覚言語モデル(VLM)を統合するロボットシステムの脆弱性を,入力モダリティの感度によって強調する。
LLM/VLM制御型2つのロボットシステムにおいて,単純な入力摂動がタスク実行の成功率を22.2%,14.6%減少させることを示す。
論文 参考訳(メタデータ) (2024-02-15T22:01:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。