論文の概要: Transferable Self-Evolving Playbooks for Agentic Security Auditing
- arxiv url: http://arxiv.org/abs/2606.16420v1
- Date: Mon, 15 Jun 2026 08:57:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:05.050531
- Title: Transferable Self-Evolving Playbooks for Agentic Security Auditing
- Title(参考訳): エージェントセキュリティ監査のためのトランスファー可能な自己進化型プレイブック
- Authors: Ziyue Wang, Cheuk Wang Maurice Ng, Chenchen Yu, Strick Sheng, Kaihua Qin, Liyi Zhou,
- Abstract要約: EvoHuntは、セキュリティ監査のためのオープンソースのリポジトリ上のプレイブック進化環境である。
3つのエージェントが進化ループを駆動し、監査エージェントが現在のプレイブックをロールアウトし、結果を生成する。
買収のために、プレイブックの進化は、Codex/GPT5.4x High 6xのエンドツーエンドエクスプロイトを1.1%から6.2%に引き上げ、OpenCode/GLM5.1のプレイブックは、すべてのメトリックでOpenAI Codex Securityを上回った。
- 参考スコア(独自算出の注目度): 10.891757655526414
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: An LLM agent for vulnerability discovery and validation is more than a model. It combines three components: an LLM for code analysis, an agent harness such as Codex or OpenCode for navigation, tool use, and execution, and an audit playbook, domain-specific procedural knowledge that guides the LLM and harness toward vulnerability discovery. Prior work relies on human-supplied playbooks, including prompt engineering, manual workflows, knowledge bases, and heuristics. This raises two research questions: Acquisition - is human curation necessary, and can playbook creation be automated? Transfer - can an evolved playbook transfer the audit procedure to weaker agents, improving their capability? We present EvoHunt, a playbook evolution environment over open-source repositories for security auditing. Three agents drive the evolution loop: an audit agent rolls out the current playbook and produces findings; an evaluator scores outcomes against ground truth; and a reviser commits updates to the playbook based on failure analysis. The playbook format is unconstrained: starting empty, EvoHunt adds or removes workflows, heuristics, vulnerability knowledge, or domain-specific content. The evolved playbook requires only minor adaptation to run under a different LLM or harness. We evaluate EvoHunt on open-source security advisories. For acquisition, playbook evolution raises end-to-end exploits for Codex/GPT5.4-xhigh 6x, from 1.1% to 6.2%, and the evolved OpenCode/GLM5.1 playbook surpasses OpenAI Codex Security on every metric, with 11.3% vs. 9.2% target-match rate, showing open-source evolution can outperform a dedicated commercial product. For transfer, the GLM-evolved playbook gives the strongest student lift: Qwen3.6-27B improves from 2.4% to 6.5%, Qwen3.6-35B-A3B from 1.1% to 4.6%, and A3B obtains 2.4x more matches than GPT transfer.
- Abstract(参考訳): 脆弱性発見と検証のためのLLMエージェントは、モデル以上のものではありません。
コード分析のためのLLM、ナビゲーション、ツール使用、実行のためのCodexやOpenCodeのようなエージェントハーネス、監査プレイブック、LLMをガイドし脆弱性発見への活用を行うドメイン固有の手続き的知識の3つのコンポーネントが組み合わさっている。
以前の仕事は、素早いエンジニアリング、手動のワークフロー、知識ベース、ヒューリスティックスなど、人間に供給されたプレイブックに依存していた。
買収 – 人間のキュレーションは必要か、プレイブック作成は自動化できるのか?
転送 - 進化したプレイブックは監査手続きを弱いエージェントに転送し、その能力を向上させることができるか?
本稿では,オープンソースのセキュリティ監査用リポジトリ上でのプレイブック進化環境であるEvoHuntを紹介する。
3つのエージェントが進化ループを駆動し、監査エージェントが現在のプレイブックをロールアウトし、結果を生成する。
空から始めると、EvoHuntはワークフロー、ヒューリスティックス、脆弱性知識、ドメイン固有のコンテンツを追加または削除する。
進化したプレイブックは、異なるLLMまたはハーネスの下で実行するためには、小さな適応しか必要としない。
我々はEvoHuntをオープンソースセキュリティアドバイザリーで評価する。
買収において、プレイブックの進化はCodex/GPT5.4-xhigh 6xのエンドツーエンドのエクスプロイトを1.1%から6.2%に引き上げ、進化したOpenCode/GLM5.1のプレイブックはOpenAI Codex Securityを超える。
Qwen3.6-27Bは2.4%から6.5%に改善され、Qwen3.6-35B-A3Bは1.1%から4.6%に改善され、A3BはGPT転送よりも2.4倍多くの試合を獲得している。
関連論文リスト
- VisualClaw: A Real-Time, Personalized Agent for the Physical World [76.89211120690028]
2つの原則に基づいて構築された自己進化型マルチモーダルエージェントであるVisualClawを紹介する。
第一に、ハイブリッド符号化は、情報の少ないストリーミングフレームをカスケードゲートでフィルタリングすることにより、デプロイメントコストを低減する。
第二に、スキルの進化により、エージェントは失敗から学び、将来の質問に役立つスキルバンク更新を生成する。
論文 参考訳(メタデータ) (2026-06-15T06:58:22Z) - SkillVetBench: LLM-as-Judge for Multi-Dimensional Security Risk Evaluation in Open-Source LLM Agent Skills [0.0]
我々は、LLM-as-Judgeを使ってエージェントスキルを拒否するHugging Faceのライブ公開リーダーボードであるSKILLVETBENCHを紹介する。
SSARS(スキルエージェントリスクスコア、Skill Agentic Risk Score)は、5次元のエージェントリスク計量であり、命令追従システムに対する原則付き重み付け式である。
論文 参考訳(メタデータ) (2026-06-14T16:30:33Z) - Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses [57.20181537213498]
Agentic Harness Engineering (AHE)は、ハーネスエンジニアリングを自動化するクローズドループである。
AHEは3つの一致した可観測性柱を通じて課題に対処する。
10 AHE lift pass@1 on Terminal-Bench 2 from 69.7% to 77.0%。
SWE-bench-verifiedでは、種子よりも12%少ないトークンで合計成功率を上回り、ターミナルベンチ2では+5.1から+10.1ppのクロスファミリーゲインを得る。
論文 参考訳(メタデータ) (2026-04-28T16:55:02Z) - LLM-Guided Prompt Evolution for Password Guessing [1.5034276386812933]
本稿では, LLMパスワード推測フレームワークのプロンプトを自動的に最適化するために, LLMによる進化的計算を適用した。
OpenEvolveはMAP-Elitesの品質多様性探索と島の人口モデルを組み合わせたオープンソースのシステムである。
論文 参考訳(メタデータ) (2026-04-14T11:27:32Z) - VeriGrey: Greybox Agent Validation [21.512659070355145]
LLMエージェントの多様な動作を探索し,セキュリティリスクを明らかにするためのグレーボックスアプローチを提案する。
我々のアプローチでは、VeriGreyはフィードバック関数として呼び出された一連のツールを使ってテストプロセスを動かします。
また、広く使われているコーディングエージェントであるGemini CLIや、有名なOpenClawパーソナルアシスタントによる実世界のケーススタディも行っています。
論文 参考訳(メタデータ) (2026-03-18T12:00:54Z) - Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents [58.69865074060139]
エージェントの自己進化が意図しない方法で逸脱し、望ましくない結果や有害な結果に至る場合について検討する。
我々の経験から、誤進化は広範囲にわたるリスクであり、最上位のLSM上に構築されたエージェントにも影響を及ぼすことが判明した。
我々は、より安全で信頼性の高い自己進化型エージェントを構築するためのさらなる研究を促すための潜在的な緩和戦略について議論する。
論文 参考訳(メタデータ) (2025-09-30T14:55:55Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - SecureAgentBench: Benchmarking Secure Code Generation under Realistic Vulnerability Scenarios [17.276786247873613]
SecureAgentBenchは、セキュアなコード生成において、コードエージェントの機能を厳格に評価するために設計された105のコーディングタスクのベンチマークである。
その結果、(i)現在のエージェントがセキュアなコードを生成するのに苦労していることが示され、最高のパフォーマンスのエージェントであるDeepSeek-V3.1がサポートしているSWE-agentも15.2%の正安のソリューションしか達成していない。
論文 参考訳(メタデータ) (2025-09-26T09:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。