論文の概要: The Containment Gap: How Deployed Agentic AI Frameworks Fail Public-Facing Safety Requirements
- arxiv url: http://arxiv.org/abs/2606.12797v1
- Date: Thu, 11 Jun 2026 01:46:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.528878
- Title: The Containment Gap: How Deployed Agentic AI Frameworks Fail Public-Facing Safety Requirements
- Title(参考訳): The Containment Gap: デプロイされたエージェントAIフレームワークが公衆の安全要件を損なう方法
- Authors: Md Jafrin Hossain, Mohammad Arif Hossain, Weiqi Liu, Nirwan Ansari,
- Abstract要約: エージェント型大規模言語モデルシステムは、パブリックドメインにますますデプロイされている。
これらのシステムを構築するために使用されるフレームワークが、アーキテクチャレベルの構造的安全性を保証するかどうかを問う。
- 参考スコア(独自算出の注目度): 4.431419229831417
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Agentic large language model systems that autonomously invoke tools, maintain persistent memory, and execute multi-step plans are increasingly deployed in public-facing domains, including government services, healthcare triage, and financial advising. We ask whether the frameworks used to build these systems provide architectural-level structural safety guarantees. Applying six containment principles derived from a compositional model of agentic architectures, we audit three dominant frameworks (LangChain, AutoGPT, and OpenAI Agents SDK) and find no native compliance in any of them. Memory integrity, a defense against one of the most prevalent vulnerability classes, is not observed in any of the three evaluated frameworks. We validate these findings empirically: in a simulated government benefits agent built on LangChain, a single memory-poisoning write induces persistent targeted corruption across all tested seeds and backends, increasing the wrongful denial rate for targeted applicants to 88.9%. Under a complex five-factor policy, the same attack preserves aggregate accuracy while increasing targeted wrongful denials by 3.5x, rendering the corruption difficult to detect through standard monitoring. We then introduce two lightweight containment mechanisms: a memory integrity validator and a policy gate, which eliminate both attack vectors with sub-millisecond overhead (<0.2ms per call). We conclude that the current agentic framework ecosystem may not yet meet secure-by-default expectations for public-facing deployments and outline priority architectural interventions to enable trustworthy deployment in high-stakes, socially impactful applications.
- Abstract(参考訳): ツールを自律的に起動し、永続的なメモリを維持し、多段階計画を実行するエージェント型大規模言語モデルシステムは、政府サービス、医療トリアージ、金融アドバイスなど、公共向けドメインにますます多くデプロイされている。
これらのシステムを構築するために使用されるフレームワークが、アーキテクチャレベルの構造的安全性を保証するかどうかを問う。
エージェントアーキテクチャの構成モデルから導かれる6つの封じ込め原則を適用し、LangChain、AutoGPT、OpenAI Agents SDKの3つの支配的なフレームワークを監査し、そのどれにもネイティブなコンプライアンスは見つからない。
最も一般的な脆弱性クラスのひとつに対する防御であるメモリ完全性は、評価された3つのフレームワークのいずれかで観察されていない。
LangChain上に構築されたシミュレートされた政府給付エージェントでは、単一のメモリポゾンによる書き込みは、テストされたすべてのシードとバックエンドにわたって永続的なターゲットの汚職を誘導し、ターゲットの応募者に対する誤った否定率を88.9%に向上させる。
複雑な5要素ポリシーの下では、同じ攻撃は集計精度を保ちながら、ターゲットの不正否定を3.5倍に増やし、標準的な監視によって汚職を検出するのが難しくなる。
次に、メモリ整合性検証器とポリシーゲートという2つの軽量な封じ込め機構を導入し、これは2つの攻撃ベクトルをミリ秒以下のオーバーヘッドで除去する(呼び出し毎に0.2ms)。
現在のエージェントフレームワークエコシステムは、パブリックなデプロイメントに対して、セキュアかつデフォルトな期待をまだ満たしていない可能性がある、と結論付け、信頼性の高い、社会的に影響のあるアプリケーションへのデプロイを可能にするために、アーキテクチャの優先的な介入を概説する。
関連論文リスト
- A New Framework for Cybersecurity Refusals in AI Agents [52.94784168139071]
攻撃的セキュリティの文脈において、拒絶境界を確立するための最初の枠組みを提示する。
本研究では,現在のLLMエージェントがWebベースの攻撃的セキュリティシナリオにおいて,適切な拒絶境界にどのように準拠しているかを評価するために,このフレームワークを適用した。
論文 参考訳(メタデータ) (2026-05-31T15:39:39Z) - Provably Secure Agent Guardrail [89.79561918065122]
既存の防衛アーキテクチャは経験的セマンティックガードレールと確率論的大モデル調整器に依存している。
本稿では,論理的推論の基本的制約に基づくエージェントのための新しいセキュリティパラダイムを提案する。
論文 参考訳(メタデータ) (2026-05-28T02:12:41Z) - Benchmarking Autonomous Agents against Temporal, Spatial, and Semantic Evasions [15.535628544812326]
LLMをベースとしたエージェントシステムを対象とした,新しい多次元回避フレームワークを提案する。
これらの脅威を定量化するために,2,254個の実世界のエージェント実行軌跡からなる総合ベンチマークであるA3S-Benchを構築した。
我々の回避フレームワークは平均リスクトリガー率を28.3%から52.6%に引き上げる。
論文 参考訳(メタデータ) (2026-05-21T11:07:51Z) - Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw [87.97230960702274]
本稿では,OpenClawの安全性評価について紹介する。
エージェントの永続状態を3次元に統一するCIK分類法を導入する。
評価では、ライブOpenClawインスタンス上の12のアタックシナリオをカバーしています。
論文 参考訳(メタデータ) (2026-04-06T15:27:05Z) - Governance-as-a-Service: A Multi-Agent Framework for AI System Compliance and Policy Enforcement [0.0]
ガバナンス・アズ・ア・サービス(Government-as-a-Service:G)は、エージェントのアウトプットを実行時に規制するポリシー駆動の執行層である。
Gは宣言的ルールと、違反のコンプライアンスと深刻度に基づいてエージェントをスコアするTrust Factorメカニズムを採用している。
その結果、Gはスループットを保ちながら高いリスクの振る舞いを確実にブロックまたはリダイレクトすることを示した。
論文 参考訳(メタデータ) (2025-08-26T07:48:55Z) - Never Compromise to Vulnerabilities: A Comprehensive Survey on AI Governance [211.5823259429128]
本研究は,本質的セキュリティ,デリバティブ・セキュリティ,社会倫理の3つの柱を中心に構築された,技術的・社会的次元を統合した包括的枠組みを提案する。
我々は,(1)防衛が進化する脅威に対して失敗する一般化ギャップ,(2)現実世界のリスクを無視する不適切な評価プロトコル,(3)矛盾する監視につながる断片的な規制,の3つの課題を特定する。
私たちのフレームワークは、研究者、エンジニア、政策立案者に対して、堅牢でセキュアなだけでなく、倫理的に整合性があり、公的な信頼に値するAIシステムを開発するための実用的なガイダンスを提供します。
論文 参考訳(メタデータ) (2025-08-12T09:42:56Z) - Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System [0.8136541584281987]
本研究は,3つの検査手法を用いて,逆チューリングテストによりローグエージェントを検出し,マルチエージェントシミュレーションにより知覚的アライメントを解析する。
GEMINI 1.5 Pro と llama-3.3-70B, Deepseek r1 モデルを用いて, 抗ジェイルブレイクシステムを開発した。
GEMINI 1.5 Proの94%の精度など、検出能力は強いが、長時間の攻撃を受けた場合、システムは永続的な脆弱性に悩まされる。
論文 参考訳(メタデータ) (2025-02-23T23:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。