論文の概要: Safety in Self-Evolving LLM Agent Systems: Threats, Amplification, and Case Studies
- arxiv url: http://arxiv.org/abs/2606.23075v1
- Date: Mon, 22 Jun 2026 09:23:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 00:20:53.142514
- Title: Safety in Self-Evolving LLM Agent Systems: Threats, Amplification, and Case Studies
- Title(参考訳): 自己進化型LLMエージェントシステムの安全性:脅威・増幅・事例研究
- Authors: Ruixiao Lin, Xinhao Deng, Qingming Li, Jianan Ma, Yunhao Feng, Yuqi Qing, Zhenyuan Li, Yechao Zhang, Shiwen Cui, Changhua Meng, Tianwei Zhang, Xingjun Ma, Qi Li, Ke Xu, Shouling Ji,
- Abstract要約: 自己進化エージェントシステムは、敵の影響力が永久に符号化される、質的に新しい脅威の風景を導入します。
モジュール・ライフサイクル・アタック・サーフェス・マトリックスを中心に組織化されたセキュリティとプライバシの分析を行った。
その結果, 自己進化は, 既知のすべての攻撃カテゴリをセッションバウンドからラインパーシスタントに変換することがわかった。
- 参考スコア(独自算出の注目度): 62.65225104423404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-evolving LLM agent systems, which autonomously update their model parameters, memory, tools, and architectures, introduce a qualitatively new threat landscape in which adversarial influences become permanently encoded, self-amplify across generations, and propagate through populations without sustained attacker access. We present a systematic security and privacy analysis organized around the Module-Lifecycle Attack Surface (MLAS) matrix, which decomposes the attack surface into five functional modules (Brain, Cognitive Resource, Execution, Self-Design, Collective) $\times$ five lifecycle stages (Bootstrap, Propose, Evaluate, Commit, Serve). Analysis of the resulting 25 cells reveals that 17 face critical threats for which no effective partial mitigation. We identify seven cross-cutting amplification effects that interact synergistically and cannot be addressed by securing individual modules in isolation. Comparative case studies of two open-source frameworks demonstrate that evolution-native design activates $3.5\times$ more attack surface cells and achieves a 100% attack persistence rate (40/40 payloads across all CIA+Privacy categories), while co-located security scanners block only 2.5% of attacks. Our findings establish that self-evolution converts every known attack category from session-bounded to lineage-persistent, gives rise to entirely new attack classes, and renders static defenses structurally inadequate, motivating evolution-aware security frameworks and formal verification for self-modifying systems.
- Abstract(参考訳): 自己進化型LLMエージェントシステムは、モデルパラメータ、メモリ、ツール、アーキテクチャを自律的に更新し、敵対的影響が永久に符号化され、世代にわたって自己増幅され、持続的な攻撃的アクセスなしに集団を伝播する、質的に新しい脅威の風景を導入する。
本稿では,モジュールライフサイクルアタックサーフェス(MLAS)マトリクスを中心に,攻撃面を5つの機能モジュール(Brain, Cognitive Resource, Execution, Self-Design, Collective)に分解するシステムセキュリティとプライバシ分析を行う。
25個の細胞の解析により、17個の細胞が致命的な脅威に直面することが判明した。
我々は,個々のモジュールを独立に確保することで,シナジスティックに相互作用し,対処できない7つの横断的増幅効果を同定する。
2つのオープンソースフレームワークの比較ケーススタディでは、進化ネイティブな設計がより多くの攻撃面セルを起動し、100%の攻撃持続率(CIA+Privacyのすべてのカテゴリで40/40のペイロード)を達成する一方、同時配置のセキュリティスキャナーはわずか2.5%の攻撃をブロックしている。
以上の結果から,すべての既知の攻撃カテゴリをセッションバウンドからラインパーシスタントに変換し,全く新しい攻撃クラスを発生させ,静的防御を構造的に不適切なものにし,進化を意識したセキュリティフレームワークを動機付け,自己修正システムの形式的検証を行うことがわかった。
関連論文リスト
- Belief-Space Quantum-Inspired Reinforcement Learning for Partially Observable Autonomous Cyber Defense in the Internet of Vehicles [1.1411682827396572]
Internet of Vehicles (IoV)は、攻撃者が防御に適応する動的で敵対的なセキュリティ環境に直面している。
我々は、IoVセキュリティをシーケンシャルアタック-ディフェンダー相互作用として定式化し、部分観測可能性下での強化学習問題としてモデルディフェンスを定式化する。
本稿では,量子インスパイアされた信念表現を用いたQ-BIRD(Quantum Belief-Integrated Reinforcement Defense)を提案する。
論文 参考訳(メタデータ) (2026-06-05T19:20:38Z) - AI Model Extraction Attacks: Bypassing Single-Client Assumptions in Defenses [1.247917923987062]
モデル抽出攻撃(MEA)は、敵がプロプライエタリなモデルを複製し、保護された情報を侵害し、オフラインの敵攻撃に備えることを可能にする。
現在の防衛戦略は、攻撃が孤立したアイデンティティに由来するという暗黙の仮定である、Single Client Assumption (SCA) に大きく依存している。
我々は、再現可能なモデルステアリング研究のためにCerberusAIと呼ばれるモジュラーでオープンソースなフレームワークを導入し、それを分散攻撃シナリオをシミュレートするために使用します。
論文 参考訳(メタデータ) (2026-06-02T09:25:29Z) - From Stateless Queries to Autonomous Actions: A Layered Security Framework for Agentic AI Systems [0.0]
エージェントAIシステムは、拡張された水平線を越えて計画し、永続的なメモリを維持し、外部ツールを起動し、ピアエージェントと調整する。
既存のセキュリティ分析は、攻撃タイプ(プロンプトインジェクション、ジェイルブレイク)によって脅威を整理するが、アーキテクチャコンポーネントが脆弱な原則モデルを提供しない。
脅威を異なるアーキテクチャコンポーネントにマッピングする7層フレームワークであるLayered Attack Surface Model (LASM)を紹介する。
論文 参考訳(メタデータ) (2026-04-25T14:57:15Z) - Poisoning the Pixels: Revisiting Backdoor Attacks on Semantic Segmentation [28.208102468217394]
本研究は,セマンティックセグメンテーションに適したバックドア攻撃を系統的に検討する。
本稿では、トリガ設計を最適化し、ラベル操作戦略を適用して攻撃性能を最大化する統合フレームワークBADSEGを紹介する。
我々の研究は、セマンティックセグメンテーションにおけるこれまで見過ごされていたセキュリティの脆弱性を明らかにし、セグメンテーション固有の脅威モデルに合わせたディフェンスの開発を動機付けている。
論文 参考訳(メタデータ) (2026-03-17T11:42:17Z) - ClawWorm: Self-Propagating Attacks Across LLM Agent Ecosystems [18.180880919825082]
ClawWormは、プロダクションスケールのエージェントフレームワークに対する最初の自己複製ワーム攻撃である。
我々は、64.5%の総攻撃成功率、マルチホップ伝播の持続、およびモデルセキュリティ姿勢におけるスタークの相違を明らかにする。
論文 参考訳(メタデータ) (2026-03-16T17:55:43Z) - Adversarial Attack-Defense Co-Evolution for LLM Safety Alignment via Tree-Group Dual-Aware Search and Optimization [51.12422886183246]
大規模言語モデル(LLM)は、Webサービスにおいて急速に発展し、社会的リスクを増幅しつつ、前例のない能力を提供してきた。
既存の作業は、分離されたジェイルブレイク攻撃または静的防御に重点を置いており、現実世界のWebコンテキストにおける進化する脅威とセーフガードの間の動的な相互作用を無視している。
ACE-Safetyは、2つの重要な革新的手順をシームレスに統合することにより、攻撃と防御モデルを協調的に最適化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-11-24T15:23:41Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。