Fugu-MT 論文翻訳(概要): Closing the Sim-to-Real Gap: An Evaluation Framework for Autonomous Cyber Defense Configuration of Commercial EDR

論文の概要: Closing the Sim-to-Real Gap: An Evaluation Framework for Autonomous Cyber Defense Configuration of Commercial EDR

arxiv url: http://arxiv.org/abs/2606.08168v1
Date: Sat, 06 Jun 2026 13:31:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:05.890007
Title: Closing the Sim-to-Real Gap: An Evaluation Framework for Autonomous Cyber Defense Configuration of Commercial EDR
Title（参考訳）: Sim-to-Real Gapのクローン化:商用EDRの自律型サイバー防衛構成のための評価フレームワーク
Authors: Kerri Prinos, Lilianne Brush,
Abstract要約: 商業的終端検出・応答(EDR)を硬化させる自律防御剤の最初の評価枠組みを提案する。 Claude Sonnet 4.6とCisco Foundation-Sec-8Bの2つの大きな言語モデル(LLM)バックボーンを持つ防衛エージェントのベンチマークを実行する。シミュレーションもオープンソースEDR評価も実現できないという3つの教訓を報告する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Leading commercial endpoint detection and response (EDR) products have shifted from operator-configured rule sets to multi-component systems where autonomous AI components operate alongside, and increasingly in place of, operator-deployed policies. Autonomous defense agents using commercial EDR as their hardening tool are no longer tuning a passive tool, but a black-box autonomous system capable of making vendor-specific decisions. We present the first evaluation framework for autonomous defense agents hardening commercial EDR. We instantiate it in a Game of Active Directory (GOAD) lab with Horizon3.ai's NodeZero as the autonomous pentester and Microsoft Defender XDR as the EDR. We run a sample benchmark of defense agents with two large language model (LLM) backbones (Claude Sonnet 4.6 and Cisco Foundation-Sec-8B). We report three lessons learned that neither simulation nor open-source-EDR evaluation can surface: (i) commercial EDR telemetry is engineered for Security Operations Center (SOC) analyst workflows rather than scientific benchmarking; (ii) the importance of per-policy attribution to separate defense agent actions from autonomous EDR actions; and (iii) the EDR's autonomous behavior varies during the evaluation window. Together, these findings highlight a sim-to-real gap for enterprise defense and motivate evaluation methodology for benchmarking autonomous defense agents in environments with black-box, autonomous tools.
Abstract（参考訳）: 主要な商用エンドポイント検出と応答(EDR)製品は、オペレータが設定したルールセットから、自律的なAIコンポーネントが運用するマルチコンポーネントシステムに移行し、オペレータがデプロイするポリシに取って代わるようになっている。商用EDRをハードニングツールとして使用する自律防衛エージェントは、もはや受動的ツールをチューニングするのではなく、ベンダー固有の決定を行うことのできるブラックボックス自律システムである。商業用EDRを硬化させる自律防御剤の最初の評価枠組みを提示する。私たちは、Horizon3.aiのNodeZeroを自律型ペンタスターとして、Microsoft Defender XDRをEDRとして、GOAD(Game of Active Directory)ラボでインスタンス化する。 Claude Sonnet 4.6とCisco Foundation-Sec-8Bの2つの大きな言語モデル(LLM)バックボーンを持つ防衛エージェントのサンプルベンチマークを実行する。シミュレーションもオープンソース-EDR評価も実現できないという3つの教訓を報告する。 (i)商用EDRテレメトリは、科学ベンチマークではなく、セキュリティオペレーションセンター(SOC)アナリストのワークフローのために設計されている。 (二)自律的EDR行為から防衛剤行為を分離することに対する政治単位の帰属の重要性、及び 3)EDRの自律行動は評価ウィンドウによって異なる。これらの知見は,ブラックボックス,自律ツールを備えた環境下での,企業防衛と自律防衛エージェントのベンチマークのためのモチベーション評価手法の模擬から現実的なギャップを浮き彫りにしている。

関連論文リスト

The Meta-Agent Challenge: Are Current Agents Capable of Autonomous Agent Development? [80.24951682268332]
本稿では,自律エージェント開発のためのフロンティアモデルのキャパシティをテストするための評価フレームワークであるMeta-Agent Challenge(MAC)を紹介する。評価の整合性を確保するため、このフレームワークは報奨ハッキングに対する多層防御によって確保される。メタエージェントは人間工学的な基本方針とほとんど一致せず、その一部はプロプライエタリなフロンティアモデルに支配されている。
論文参考訳（メタデータ） (2026-06-03T04:58:17Z)
REBAR: Reference Ethical Benchmark for Autonomy Readiness [7.074395078077516]
本稿では,自律システムのための定量的テストおよび評価フレームワークであるReference Ethical Benchmark for Autonomy Readiness (REBAR)を紹介する。 REBARは、運用メトリクスを、倫理的パフォーマンスを定量化できる計算可能な自律性レベル(ARL)にマッピングする。このフレームワークの主な革新は、シナリオの倫理的困難を計算し、説明するための、ニューロシンボリックな大規模言語モデル(LLM)アプローチである。
論文参考訳（メタデータ） (2026-05-18T13:56:19Z)
Threat-Oriented Digital Twinning for Security Evaluation of Autonomous Platforms [0.4083182125683813]
本稿では,学習可能な自律プラットフォームにおけるサイバーセキュリティ評価のための,脅威指向のディジタルツインニング手法を提案する。このアプローチは、分離された感受性、自律性、および監督制御機能を備えた、代表的自律スタックのオープンソースでモジュール化されたツインとしてインスタンス化されている。
論文参考訳（メタデータ） (2026-04-28T15:21:02Z)
Trustworthy Evaluation of Robotic Manipulation: A New Benchmark and AutoEval Methods [30.612032540735402]
Eval-ActionsベンチマークとAutoEvalアーキテクチャを組み合わせたソリューションを提案する。このデータセットは、Expert Grading(EG)、Rang-Guided preferences(RG)、Chain-of-Thought(CoT)の3つのコア監視信号を中心に構成されている。 AutoEval は EG プロトコルと RG プロトコルでそれぞれ 0.81 と 0.84 のSpearman's Rank correlation Coefficients (SRCC) を達成している。
論文参考訳（メタデータ） (2026-01-26T17:47:42Z)
AI-Augmented CI/CD Pipelines: From Code Commit to Production with Autonomous Decisions [0.0]
我々は、大規模言語モデルと自律エージェントがポリシーに縛られたコパイロットとして機能するAI強化CI/CDパイプラインを提案する。我々は、倫理、検証、監査可能性、妥当性への脅威について議論し、本番配送システムにおける検証可能な自律性に関するロードマップを示す。
論文参考訳（メタデータ） (2025-08-16T01:51:59Z)
MetAdv: A Unified and Interactive Adversarial Testing Platform for Autonomous Driving [85.04826012938642]
MetAdvは、現実的でダイナミックでインタラクティブな評価を可能にする、新しい対向テストプラットフォームである。フレキシブルな3D車両モデリングと、シミュレートされた環境と物理的環境のシームレスな遷移をサポートする。生理的信号のリアルタイムキャプチャとドライバからの行動フィードバックを可能にする。
論文参考訳（メタデータ） (2025-08-04T03:07:54Z)
OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文参考訳（メタデータ） (2025-07-08T16:18:54Z)
AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving [31.127210974372456]
VLM(Vision-Language Models)は、自律走行を約束するが、幻覚、非効率な推論、限られた実世界の検証は、正確な知覚と堅牢なステップバイステップ推論を妨げる。我々は、Chain-of-Thought(CoT)推論と、自律運転タスクのための動的エージェントスタイルのツール呼び出しを統合した、先駆的な統合フレームワークであるtextbfAgentThinkを紹介した。
論文参考訳（メタデータ） (2025-05-21T09:27:43Z)
AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文参考訳（メタデータ） (2025-04-29T17:36:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。