論文の概要: Safety-Contract Graph Multi-Agent Reinforcement Learning for Autonomous Network Security Response
- arxiv url: http://arxiv.org/abs/2606.13832v1
- Date: Thu, 11 Jun 2026 19:02:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.587446
- Title: Safety-Contract Graph Multi-Agent Reinforcement Learning for Autonomous Network Security Response
- Title(参考訳): 自律型ネットワークセキュリティ応答のための安全制約グラフ多エージェント強化学習
- Authors: Jose Luis Lima de Jesus Silva,
- Abstract要約: ACD$3$-GAT (Adaptive Constrained Counterfactual Decisioning with a Graph Attention Network encoder)として安全契約グラフMARLフレームワークを提案する。
CAGE Challenge 4では,エージェントがMTTR(Mean Time to Recover),偽陽性応答,ファイアウォール変更管理障害などの予算の下で作業を行う。
これは、報酬のみの学習が運用の規律を欠いていることを示すことで、CAGE Challenge 4の前の発見を補完する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous network-security response systems promise to reduce Security Operations Centre (SOC) reaction latency, but reward-only multi-agent reinforcement learning (MARL) can improve security reward while remaining non-deployable. We present a safety-contract graph MARL framework and instantiate it as ACD$^3$-GAT (Adaptive Constrained Counterfactual Decisioning with a Graph Attention Network encoder), an architecture that separates simulator observations from reusable operational budgets, constrained optimization, graph state encoding, and counterfactual action screening. We evaluate the method in CAGE Challenge 4, where agents operate under budgets for Mean Time to Recover (MTTR), false-positive response, and firewall change-management disruption. Across the benchmark, every unconstrained method violates the SOC downtime budget in 100% of evaluated episodes, with mean downtime proxy costs of 311-430 against a budget of 50. This complements prior CAGE Challenge 4 findings by showing that reward-only learning lacks operational discipline. Constrained MAPPO-GAT (C-MAPPO-GAT) isolates Lagrangian operational-cost control and budget-aware screening, while ACD$^3$-GAT adds budget context, CVaR tail-risk estimation, opponent-belief state, and Graph Counterfactual Risk Propagation (G-CRP). The replicated comparison includes three 200-episode seeds for IPPO, MAPPO-GAT, C-MAPPO-GAT, and ACD$^3$-GAT. C-MAPPO-GAT reduces downtime violation from 100% to 0.3% and mean downtime cost from 355.4 to 15.5 relative to MAPPO-GAT. ACD$^3$-GAT reduces mean downtime cost to 48.2 with a 13.8% violation rate, placing it on the safety-contract frontier rather than at the most conservative compliance point. Topology-seed and coupled adaptive Red-process stress tests preserve this contrast and show lower worst adaptive degradation for safety-constrained policies than reward-only MAPPO-GAT.
- Abstract(参考訳): 自律的なネットワークセキュリティ対応システムは、SOC(Security Operations Centre)のリアクションレイテンシを低減することを約束するが、報酬のみのマルチエージェント強化学習(MARL)は、非デプロイ性を維持しながらセキュリティ報酬を改善することができる。
本稿では,ACD$^3$-GAT(Adaptive Constrained Counterfactual Decisioning with a Graph Attention Network encoder)として,再利用可能な運用予算,制約付き最適化,グラフ状態エンコーディング,および反ファクトアクションスクリーニングからシミュレーション観測を分離するアーキテクチャを提案する。
CAGE Challenge 4では,エージェントがMTTR(Mean Time to Recover),偽陽性応答,ファイアウォール変更管理障害などの予算の下で作業を行う。
ベンチマーク全体で、制約のないすべてのメソッドは、評価されたエピソードの100%でSOCダウンタイム予算に違反し、平均ダウンタイムプロキシコストは、50の予算に対して311-430である。
これは、報酬のみの学習が運用の規律を欠いていることを示すことで、CAGE Challenge 4の前の発見を補完する。
拘束されたMAPPO-GAT(C-MAPPO-GAT)は、ラグランジュの運用コスト管理と予算認識スクリーニングを分離する一方、ACD$^3$-GATは予算コンテキスト、CVaRテールリスク推定、対向的状態、グラフ対事実リスク伝搬(G-CRP)を追加している。
複製された比較は、IPPO、MAPPO-GAT、C-MAPPO-GAT、ACD$^3$-GATの3つの200エピソード種子を含む。
C-MAPPO-GAT はダウンタイム違反を100%から 0.3% に減らし、平均ダウンタイムコストを MAPPO-GAT と比較して 355.4 から 15.5 に下げる。
ACD$^3$-GATは、平均ダウンタイムコストを、13.8%の違反率で48.2に下げ、最も保守的なコンプライアンスポイントではなく、安全契約のフロンティアに置く。
トポロジカルシードとアダプティブレッドプロセスのストレステストは、このコントラストを保ち、報酬のみのMAPPO-GATよりも安全性に制約のあるポリシーに対する最悪の適応劣化を示す。
関連論文リスト
- WMAttack: Automated Attack Search for Adversarial Evaluation of World-Model Agents [53.84430233754606]
WMAttackは、世界モデルエージェントの敵意評価のための自動攻撃探索フレームワークである。
WMAttackは攻撃構成に対する有限予算探索としてロバストネス評価を定式化する。
WMAttackは評価ベースラインよりも強力な攻撃を継続的に発見することを示す。
論文 参考訳(メタデータ) (2026-05-22T04:31:09Z) - Learning When to Act: Communication-Efficient Reinforcement Learning via Run-Time Assurance [0.27998963147546146]
Lyapunov の安全性保護の下で制御入力と通信効率のタイミング決定を単一ポリシで学習できることが示される。
実行時保証層は、1ステップのリアプノフ予測と事前計算されたLQRバックアップを介してポリシーをオーバーライドする。
12-state 3D quadrotor のケーススタディでは、古典的な STC が難解な高次元システムにフレームワークを拡張している。
論文 参考訳(メタデータ) (2026-05-11T23:55:15Z) - Cognitive Friction: A Decision-Theoretic Framework for Bounded Deliberation in Tool-Using Agents [0.0]
制約のないツール使用エージェントは、どの情報ソースをクエリして実行するかを決めなければなりません。
本稿では,これらの障害モードを認知的摩擦によって形式化する決定論的枠組みであるTCAを提案する。
我々は,TCAを2つの制御された環境において,停止品質,混雑時の行動選択,時間的緊急性の分離を図った。
論文 参考訳(メタデータ) (2026-03-31T17:30:25Z) - LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications [51.56484100374058]
評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
このシステムは、最小限のAPI契約の下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせる。
チケットルーティングとBEIRタスクのハーネスを、完全なAzureマトリックスカバレッジで評価する。
論文 参考訳(メタデータ) (2026-03-28T18:03:32Z) - Adversarial Intent is a Latent Variable: Stateful Trust Inference for Securing Multimodal Agentic RAG [5.4716896485317195]
マルチモーダルエージェントRAGに対する現在のステートレスディフェンスは、悪意のあるセマンティクスを配布する敵の戦略を検出するのに失敗する。
MMA-RAGTは,MTA (Modular Trust Agent) が管理する推定時制御フレームワークで,ほぼ信頼状態を維持している。
論文 参考訳(メタデータ) (2026-02-24T23:52:27Z) - Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models [68.45272703833209]
現状のPRMは、逆最適化圧力下で体系的に利用可能であることを示す。
これらの脆弱性を定量化するために、敵の圧力を増大させる3段階の診断フレームワークを導入する。
我々は、PRM-BiasBenchと診断ツールキットをリリースし、デプロイ前にロバストネスの評価を可能にする。
論文 参考訳(メタデータ) (2026-02-20T23:38:03Z) - Safe Langevin Soft Actor Critic [10.683491090059867]
拘束強化学習における報酬と安全性のバランスをとるために,安全ランゲヴィン・ソフト・アクター・クリティカル(SL-SAC)を導入した。
SL-SACは10タスク中7タスクで最低コストを達成し,競争的リターンを維持していることを示す。
Safety-Gymnasiumでは、SL-SACは最先端のベースラインと比較して、速度タスクの19-63%のコスト削減を実現している。
論文 参考訳(メタデータ) (2026-01-31T08:06:35Z) - Quantifying Return on Security Controls in LLM Systems [0.0]
本稿では、残留リスクを定量化するための意思決定指向フレームワークを提案する。
敵のプローブの結果を金融リスク推定と戻り制御の指標に変換する。
論文 参考訳(メタデータ) (2025-12-17T04:58:09Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - IBP Regularization for Verified Adversarial Robustness via
Branch-and-Bound [85.6899802468343]
IBP-Rは, どちらも簡便なトレーニングアルゴリズムである。
また、$beta$-CROWNに基づく新しいロバスト性であるUPBを提示し、最先端の分岐アルゴリズムのコストを削減する。
論文 参考訳(メタデータ) (2022-06-29T17:13:25Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。