論文の概要: SecureClaw: Clawing Back Control of LLM Agents
- arxiv url: http://arxiv.org/abs/2606.09549v1
- Date: Mon, 08 Jun 2026 14:29:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.264285
- Title: SecureClaw: Clawing Back Control of LLM Agents
- Title(参考訳): SecureClaw: LLMエージェントのバックコントロール
- Authors: Yuhan Ma, Stefan Schmid,
- Abstract要約: ツールを使用する大規模言語モデル(LLM)エージェントは2つの異なるセキュリティ障害に直面している。
本稿では、エフェクトシンクに認証を配置し、リードバウンダリにプレーンテキストを閉じ込めるデュアルバウンダリアーキテクチャであるSecureClawを提案する。
AgentDojo、AgentLeak、Agent Security Bench (ASB)、SecureClawは、私たちが共通のハーネスで評価する唯一の防御です。
- 参考スコア(独自算出の注目度): 5.952015302242554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-using large language model (LLM) agents face two distinct security failures: unauthorized external actions and exposure of sensitive plaintext inside the runtime before any final output check can intervene. Existing defenses usually protect one boundary, either the planner/runtime or the action sink, and therefore do not by themselves secure both surfaces. We present SecureClaw, a dual-boundary architecture that places authorization at the effect sink and plaintext confinement at the read boundary. Sensitive reads pass through a trusted gateway that replaces raw values with opaque handles and, in the evaluated deployment, bounded summaries as an explicit declassification interface. Writes that change external state follow a PREVIEW$\rightarrow$COMMIT protocol in which only a trusted executor may commit the exact canonical request authorized by policy. The runtime can still plan over summaries and symbolic references, but cannot directly dereference secrets or perform side effects. Across AgentDojo, AgentLeak, and Agent Security Bench (ASB), SecureClaw is the only defense we evaluate in a common harness that simultaneously retains usable task utility and achieves 0\% attack success rate (ASR) on ASB, 0.64\% ASR on AgentDojo, and 3.23\% overall leak on AgentLeak's attacked parity lane, which measures final-output and internal-relay leakage.
- Abstract(参考訳): ツールを使用する大規模言語モデル(LLM)エージェントは、2つの異なるセキュリティ障害に直面している。
既存の防御は、通常、プランナー/ランタイムまたはアクションシンクのどちらかの境界を1つ保護する。
本稿では、エフェクトシンクに認証を配置し、リードバウンダリにプレーンテキストを閉じ込めるデュアルバウンダリアーキテクチャであるSecureClawを提案する。
Sensitive Readは、生の値を不透明なハンドルで置き換える信頼できるゲートウェイを通過し、評価されたデプロイメントでは、明示的な非分類インターフェースとして境界付けられたサマリをパスする。
外部状態の変更はPreVIEW$\rightarrow$COMMITプロトコルに従っている。
ランタイムは、サマリーやシンボリック参照を計画することもできますが、シークレットを直接参照したり、副作用を実行することはできません。
AgentDojo、AgentLeak、Agent Security Bench (ASB)、SecureClawは、使用可能なタスクユーティリティを同時に保持し、AgentDojoでの攻撃成功率(ASR)、AgentLeakの攻撃されたパリティレーンの全体的なリーク率3.23\%を達成する共通のハーネスで評価する唯一の防御である。
関連論文リスト
- AgentSecBench: Measuring Prompt Injection, Privacy Leakage, and Tool-Use Integrity in LLM Agents [0.2864713389096699]
本稿では,AgentSecBenchを,この問題に対する正式なセキュリティフレームワークの実証的なインスタンス化として紹介する。
3つのゲーム・インストラクション・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス(英語版)・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス(英語版)・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス(英語版)を定めている。
これは、承認された観察と能力に対するプロジェクションとしてのアプリケーションポリシーを表し、プロジェクションの即時アノテーションとプロジェクションの強化を区別し、敵のアドバンテージと、防衛が生成前に関連するモデル可視チャネルを閉鎖するかどうかを計測する。
論文 参考訳(メタデータ) (2026-05-25T18:53:22Z) - Securing LLM Agents Need Intent-to-Execution Integrity [49.490963596514185]
我々は, LLMエージェントの確保には, エージェントの実行がユーザの意図を忠実に反映した場合に規定するエンドツーエンドの正当性を定義する必要があると主張している。
LLMエージェントはコンパイラと構造的に類似しており、セキュリティ違反はユーザ意図を保存しない誤った実行に対応する。
emphTool整合性、emph命令整合性、emphJudgment整合性、emphData整合性。
論文 参考訳(メタデータ) (2026-05-16T12:53:31Z) - The Granularity Mismatch in Agent Security: Argument-Level Provenance Solves Enforcement and Isolates the LLM Reasoning Bottleneck [18.14752683836217]
textscPACTは、ツール引数にセマンティックロールを割り当てるランタイムモニタである。
textscPACTはエージェントセキュリティを権限バインディングとして再設定する。
論文 参考訳(メタデータ) (2026-05-11T04:09:11Z) - Compiling Activation Steering into Weights via Null-Space Constraints for Stealthy Backdoors [48.881343993730844]
安全性に整合した大規模言語モデル(LLM)は、現実世界のパイプラインにますますデプロイされている。
敵は通常の評価では動作しないバックドアのチェックポイントを配布することができる。
最近のポストホック重み付け法は、そのようなバックドアを注入するための効率的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-04-14T06:48:33Z) - ClawGuard: A Runtime Security Framework for Tool-Augmented LLM Agents Against Indirect Prompt Injection [8.627671856044527]
textscClawGuardは、すべてのツール呼び出し境界に設定されたユーザ確認ルールを強制する。
textscClawGuardは、モデル修正やインフラストラクチャの変更なしに、3つのインジェクションパスをすべてブロックする。
この研究は、安全なエージェントAIシステムのための効果的な防御メカニズムとして、決定論的ツールコール境界強制を確立する。
論文 参考訳(メタデータ) (2026-04-13T17:55:11Z) - AgentSys: Secure and Dynamic LLM Agents Through Explicit Hierarchical Memory Management [47.49917373646469]
既存の防御は肥大した記憶を与えられたまま扱い、回復力を維持することに集中する。
我々は、明示的なメモリ管理を通じて間接的なインジェクションを防御するフレームワークであるAgentSysを紹介する。
論文 参考訳(メタデータ) (2026-02-07T06:28:51Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
安全ガード要求を満たすか否かを動的に確認し,目標エージェントを保護する最初のガードレールエージェントであるガードアジェントを提案する。
特にGuardAgentは、まず安全ガードの要求を分析してタスクプランを生成し、それからその計画をガードレールコードにマップして実行します。
GuardAgentは、それぞれ98%と83%のガードレール精度を持つ2つのベンチマークにおいて、異なる種類のエージェントに対する違反行為を効果的に抑制することを示した。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。