論文の概要: SAIGuard: Communication-State Simulation for Proactive Defense of LLM Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2606.12474v1
- Date: Wed, 10 Jun 2026 05:37:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.349013
- Title: SAIGuard: Communication-State Simulation for Proactive Defense of LLM Multi-Agent Systems
- Title(参考訳): SAIGuard:LLMマルチエージェントシステムのプロアクティブディフェンスのための通信状態シミュレーション
- Authors: Ruxue Shi, Yili Wang, Mengnan Du, Qinggang Zhang, Rui Miao, Yixin Liu, Xin Wang,
- Abstract要約: LLMベースのマルチエージェントシステム(MAS)は、エージェント間のコラボレーションを通じて複雑なタスクを解決するが、そのコミュニケーション駆動性により、エージェントにまたがってセキュリティリスクを分散させ、システム全体の障害を引き起こす。
我々は,MASセキュリティ,すなわちシミュレーション対応インターセプションガード(SAIGuard)のための積極的な防御フレームワークを提案する。
SAIGuardはMASインタラクショングラフ上で通信状態シミュレーションを行い、受信したメッセージがローカルエージェントの状態とグローバルMAS状態に与える影響を推定し、良質な通信パターンからの再構成逸脱によって危険メッセージを検出する。
- 参考スコア(独自算出の注目度): 31.635133844217318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based multi-agent systems (MAS) solve complex tasks through inter-agent collaboration, but their communication-driven nature also allows security risks to spread across agents and trigger system-wide failures. Existing MAS defenses mainly follow a reactive paradigm after execution by detecting and isolating harmful agents, which may cause irreversible damage and degrade collaborative utility. To address this, we propose a proactive defense framework for MAS security, namely a Simulation-aware Interception Guard (SAIGuard). SAIGuard performs communication-state simulation over the MAS interaction graph, estimates the impact of incoming messages on local agent states and the global MAS state, and detects risky messages via reconstruction deviations from benign communication patterns. Instead of isolating agents, SAIGuard sanitizes or regenerates suspicious messages before it propagation into system. Experiments across diverse topologies and attack scenarios show that SAIGuard reduces attack success rates while maintaining MAS utility, outperforming reactive defenses.
- Abstract(参考訳): LLMベースのマルチエージェントシステム(MAS)は、エージェント間のコラボレーションを通じて複雑なタスクを解決するが、そのコミュニケーション駆動性により、エージェントにまたがってセキュリティリスクを分散させ、システム全体の障害を引き起こす。
既存のMAS防御は、主に、有害物質を検出し、分離することで実行後の反応性パラダイムに従っており、これは不可逆的な損傷を生じさせ、協調的効用を低下させる可能性がある。
そこで本研究では,MASセキュリティ,すなわちSAIGuard(Simulation-aware Interception Guard)のプロアクティブディフェンスフレームワークを提案する。
SAIGuardはMASインタラクショングラフ上で通信状態シミュレーションを行い、受信したメッセージがローカルエージェントの状態とグローバルMAS状態に与える影響を推定し、良質な通信パターンからの再構成逸脱によって危険メッセージを検出する。
SAIGuardはエージェントを分離する代わりに、不審なメッセージをシステムに伝達する前に消毒または再生する。
さまざまなトポロジとアタックシナリオにわたる実験では、SAIGuardがMASユーティリティを維持しながら攻撃成功率を低減し、リアクティブディフェンスよりも優れた結果が示されている。
関連論文リスト
- BraveGuard: From Open-World Threats to Safer Computer-Use Agents [68.38397514360227]
BraveGuardは、オープンワールドの脅威信号とリアルエージェントの軌道からモデルを訓練するための自己進化型防衛フレームワークである。
我々は、Qwen3-GuardやLlama-Guardなど複数のガードバックボーンをトレーニングしてBraveGuardをインスタンス化し、トラジェクトリレベルのエージェントセーフティベンチマークの結果のガードを評価する。
論文 参考訳(メタデータ) (2026-05-31T11:16:18Z) - PropGuard: Safeguarding LLM-MAS via Propagation-Aware Exploration and Remediation [25.496319464385277]
既存の防御は、良心的な協調を妨害することなく、きめ細かい伝播経路や汚染状態の追跡に失敗する。
PropGuardは、応答中心のリスク推定とフルステートのエビデンス保存を組み合わせた、デュアルビュー・テンポラルグラフを構築している。
プロップガードは高いタスクレベルの防衛の成功を維持しながら常に攻撃し、好意的な修復効率のトレードオフを実現した。
論文 参考訳(メタデータ) (2026-05-08T03:26:55Z) - When Embedding-Based Defenses Fail: Rethinking Safety in LLM-Based Multi-Agent Systems [18.461135869777316]
大規模言語モデル (LLM) を利用したマルチエージェントシステム (MAS) により、エージェントは情報通信と共有が可能となり、複雑なタスクにおいて高いパフォーマンスを達成できる。
既存の埋め込みベースの防御は、疑わしいエージェントを検出してプルークすることを目的としているが、その効果は悪意のあるメッセージと良心的なメッセージの埋め込みを明確に分離することに依存する。
我々は,この障害モードを理論的に解析し,Slow Drift, Benign Wrapper, Chaos Seedingの3つの攻撃を経験的に検証する。
論文 参考訳(メタデータ) (2026-05-01T22:15:11Z) - OMNI-LEAK: Orchestrator Multi-Agent Network Induced Data Leakage [59.3826294523924]
オーケストレータ設定として知られる,一般的なマルチエージェントパターンのセキュリティ脆弱性について検討する。
本報告では,フロンティアモデルの攻撃カテゴリに対する感受性を報告し,推論モデルと非推論モデルの両方が脆弱であることが確認された。
論文 参考訳(メタデータ) (2026-02-13T21:32:32Z) - INFA-Guard: Mitigating Malicious Propagation via Infection-Aware Safeguarding in LLM-Based Multi-Agent Systems [70.37731999972785]
本稿では,感染防止対策の枠組みであるINFA-Guardを提案する。
修復中、INFA-Guardは攻撃者を置き換え、感染した者を修復し、トポロジカルな整合性を維持しながら悪意のある伝播を避ける。
論文 参考訳(メタデータ) (2026-01-21T05:27:08Z) - AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - Searching for Privacy Risks in LLM Agents via Simulation [61.229785851581504]
本稿では,プライバシクリティカルなエージェントインタラクションのシミュレーションを通じて,攻撃と防御戦略の改善を交互に行う検索ベースのフレームワークを提案する。
攻撃戦略は、直接の要求から、不正行為や同意偽造といった高度な戦術へとエスカレートする。
発見された攻撃と防御は、さまざまなシナリオやバックボーンモデルにまたがって伝達され、プライバシーに配慮したエージェントを構築するための強力な実用性を示している。
論文 参考訳(メタデータ) (2025-08-14T17:49:09Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Red-Teaming LLM Multi-Agent Systems via Communication Attacks [10.872328358364776]
大規模言語モデルに基づくマルチエージェントシステム(LLM-MAS)は、メッセージベースのコミュニケーションを通じて高度なエージェント協調を可能にすることで、複雑な問題解決能力に革命をもたらした。
エージェント・イン・ザ・ミドル(AiTM, Agent-in-the-Middle)は、エージェント間メッセージのインターセプトと操作によってLLM-MASの基本的な通信機構を利用する新たな攻撃法である。
論文 参考訳(メタデータ) (2025-02-20T18:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。