論文の概要: MAStrike: Shapley-Guided Collusive Red-Teaming on Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2606.12918v1
- Date: Thu, 11 Jun 2026 05:21:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.6001
- Title: MAStrike: Shapley-Guided Collusive Red-Teaming on Multi-Agent Systems
- Title(参考訳): MAStrike: マルチエージェントシステム上でのShapley-Guided Collusive Red-Teaming
- Authors: Chejian Xu, Zhaorun Chen, Jingyang Zhang, Freddy Lecue, Avni Kothari, Sarah Tan, Wenbo Guo, Bo Li,
- Abstract要約: 階層型マルチエージェントシステム(MAS)は、金融やソフトウェア工学といった高度な分野に急速にデプロイされている。
MASの既存の赤チーム方式は、ターゲットエージェントと分離されたメッセージストリームの選択に依存している。
階層型MASにおけるコラシブ・リピートのためのクローズドループ・フレームワークであるMAStrikeを提案する。
- 参考スコア(独自算出の注目度): 26.889808672555393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical multi-agent systems (MAS) are rapidly being deployed in high-stakes workflows across domains such as finance and software engineering. In these systems, safety and security are inherently distributed across role-specialized agents, significantly expanding the attack surface, particularly under coordinated adversarial behaviors such as privilege escalation and cross-agent collusion. Existing red-teaming approaches for MAS remain limited: they rely on heuristic selection of target agents and perturb isolated message streams, leaving critical questions unanswered as which agents are most responsible for system safety, and how compromised agents can coordinate to bypass defenses. We propose MAStrike, a closed-loop framework for collusive red-teaming in hierarchical MAS. We propose the first agent-level Shapley value analysis for MAS, quantifying each agent's marginal contribution to system robustness under task-specific distributions. GGuided by this attribution, MAStrike identifies vulnerable agent coalitions and generates coordinated, role-aware adversarial manipulations. These attacks are iteratively refined through structured causal diagnosis, attributing failure cases to uncompromised agents that block adversarial attempts. We further build a comprehensive MAS red-teaming benchmark and controllable environments spanning diverse hierarchical topologies and domains, including finance, software engineering, and CRM. Extensive experiments across MAS built on multiple frontier models show that MAStrike substantially outperforms heuristic baselines. Our analysis further uncovers non-trivial Shapley value distributions and higher-order interaction structures among agents, revealing critical vulnerabilities and coordination patterns that are overlooked by prior single-agent or template-based methods.
- Abstract(参考訳): 階層型マルチエージェントシステム(MAS)は、金融やソフトウェア工学といった分野にわたる高度なワークフローに急速にデプロイされている。
これらのシステムでは、安全とセキュリティは本質的にロール特殊化エージェントに分散し、特に特権エスカレーションやクロスエージェントの共謀のような協調した敵行動下で攻撃面を著しく拡大する。
既存のMASのレッドチームアプローチは限定的であり、ターゲットエージェントのヒューリスティックな選択と、分離されたメッセージストリームの摂動に依存しており、どのエージェントがシステムの安全性に最も責任を持つのか、妥協されたエージェントが防御をバイパスするためにどのように調整できるかという重要な疑問が残されている。
階層型MASにおけるコラッシブ・リピートのためのクローズドループ・フレームワークであるMAStrikeを提案する。
タスク固有分布下でのシステムロバスト性に対する各エージェントの限界寄与を定量化する,MASのためのエージェントレベルシェープ値解析法を提案する。
この属性に導かれ、MAStrikeは脆弱なエージェントの連帯を特定し、協調されたロールアウェアの敵操作を生成する。
これらの攻撃は、構造的因果診断によって反復的に洗練され、敵の試行を阻止する非競合エージェントに障害ケースをもたらす。
さらに、金融、ソフトウェアエンジニアリング、CRMなど、さまざまな階層的なトポロジとドメインにまたがる包括的なMASレッドチームベンチマークとコントロール可能な環境を構築します。
複数のフロンティアモデル上に構築されたMASの広範な実験は、MAStrikeがヒューリスティックベースラインを大幅に上回っていることを示している。
さらに, エージェント間の非自明なShapley値分布と高次相互作用構造を明らかにし, 従来の単一エージェントやテンプレートベースの手法では見過ごせない致命的脆弱性や協調パターンを明らかにする。
関連論文リスト
- DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents [121.77550256034]
DecodingTrust-Agent Platform (DTap)は、AIエージェントのためのコントロール可能でインタラクティブなレッドチームプラットフォームである。
DTap-Redは、多様なインジェクションベクターを探索し、効果的な攻撃戦略を自律的に発見する、最初の自律的赤チームエージェントである。
DTapを通じて、さまざまなバックボーンモデル上に構築された一般的なAIエージェントの大規模評価を行う。
論文 参考訳(メタデータ) (2026-05-06T11:59:48Z) - OMNI-LEAK: Orchestrator Multi-Agent Network Induced Data Leakage [59.3826294523924]
オーケストレータ設定として知られる,一般的なマルチエージェントパターンのセキュリティ脆弱性について検討する。
本報告では,フロンティアモデルの攻撃カテゴリに対する感受性を報告し,推論モデルと非推論モデルの両方が脆弱であることが確認された。
論文 参考訳(メタデータ) (2026-02-13T21:32:32Z) - Explainable and Fine-Grained Safeguarding of LLM Multi-Agent Systems via Bi-Level Graph Anomaly Detection [76.91230292971115]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は複雑なタスクを解く上で強力な能力を示している。
XG-Guardは、MAS内の悪意のあるエージェントを検出するための、説明可能な、きめ細かい保護フレームワークである。
論文 参考訳(メタデータ) (2025-12-21T13:46:36Z) - Vulnerable Agent Identification in Large-Scale Multi-Agent Reinforcement Learning [49.31650627835956]
システムがスケールアップすると、部分的なエージェントの障害は避けられないものとなり、全体的なパフォーマンスが著しく低下するエージェントのサブセットを特定することが重要になる。
本稿では,大規模マルチエージェント強化学習(MARL)における脆弱性エージェント識別(VAI)問題について検討する。
実験により, 大規模MARLおよびルールベースシステムにおいて, より脆弱なエージェントを効果的に同定し, システムを悪用し, それぞれのエージェントの脆弱性を明らかにする値関数を学習した。
論文 参考訳(メタデータ) (2025-09-18T16:03:50Z) - Servant, Stalker, Predator: How An Honest, Helpful, And Harmless (3H) Agent Unlocks Adversarial Skills [3.0620527758972496]
本稿では,モデルコンテキストプロトコルに基づくエージェントシステムにおいて,新たな脆弱性クラスを特定し,解析する。
このアタックチェーンは、有害な緊急行動を生み出すために、個々に認可された個々のタスクをどのように編成するかを説明し、実証する。
論文 参考訳(メタデータ) (2025-08-27T01:11:59Z) - Risk Analysis Techniques for Governed LLM-based Multi-Agent Systems [0.0]
本稿では,マルチエージェントAIシステムにおけるリスク識別と分析の初期段階について述べる。
信頼性障害のカスケード,エージェント間コミュニケーション障害,モノカルチャー崩壊,適合性バイアス,心の欠陥理論,混合モチベーションダイナミクスの6つの重要な障害モードについて検討した。
論文 参考訳(メタデータ) (2025-08-06T06:06:57Z) - Who's the Mole? Modeling and Detecting Intention-Hiding Malicious Agents in LLM-Based Multi-Agent Systems [25.6233463223145]
大規模言語モデル(LLM-MAS)を用いたマルチエージェントシステムにおける意図隠蔽脅威について検討する。
高いステルス性を維持しながらタスク完了を微妙に妨害する4つの代表的な攻撃パラダイムを設計する。
これらの脅威に対処するために,心理学に着想を得た検出フレームワークであるAgentXposedを提案する。
論文 参考訳(メタデータ) (2025-07-07T07:34:34Z) - SentinelAgent: Graph-based Anomaly Detection in Multi-Agent Systems [11.497269773189254]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)に適したシステムレベルの異常検出フレームワークを提案する。
本稿では,エージェント間相互作用を動的実行グラフとしてモデル化し,ノード,エッジ,パスレベルでの意味的異常検出を可能にするグラフベースのフレームワークを提案する。
第2に,セキュリティポリシとコンテキスト推論に基づくMAS実行の監視,解析,介入を行うLLMによる監視エージェントである,プラグイン可能なSentinelAgentを導入する。
論文 参考訳(メタデータ) (2025-05-30T04:25:19Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。