論文の概要: Security Engineering of OpenClaw: Analyzing Attack Surface Expansion and Trust-Boundary Violations
- arxiv url: http://arxiv.org/abs/2606.15008v1
- Date: Fri, 12 Jun 2026 23:00:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.571781
- Title: Security Engineering of OpenClaw: Analyzing Attack Surface Expansion and Trust-Boundary Violations
- Title(参考訳): OpenClawのセキュリティエンジニアリング:攻撃面の拡大と信頼境界違反の解析
- Authors: Saeid Jamshidi, Arghavan Moradi Dakhel, Kawser Wazed Nafi, Foutse Khomh,
- Abstract要約: LLM出力がコマンドを実行し、ツールやサービスと対話できる自己ホスト型マルチエージェントシステムであるOpenClawを解析する。
我々は、妥協確率、境界障害、特権ドリフト、そして攻撃能力の増加に伴ってこれらのメトリクスがどのように変化するかを測定する。
- 参考スコア(独自算出の注目度): 6.047611029478951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic large language model (LLM) systems can now execute actions, not only produce text. When model outputs trigger privileged operations such as shell commands, browser automation, or external tool calls, the security problem shifts from alignment alone to system configuration and structural design. We analyze OpenClaw, a self-hosted multi-agent system in which LLM outputs can execute commands and interact with tools and services. We measure compromise probability, boundary failures, privilege drift, and how these metrics change as attacker capability increases. With one agent, the compromise probability is 0.24. With seven agents, when the system executes an action, the compromise rises to 0.86 if any single agent proposes it. The models do not change; the increase comes from output aggregation. Prompt injection propagates instability across the system. Attack surface entropy increases from 0.42 to 0.71, indicating a broader distribution of exploit paths. The mean privilege drift increases from 0.03 to 0.21, indicating unintended authority gain. Positive escalation curvature of 0.08 indicates that privilege grows faster as attacker capability increases. Defensive controls, including policy gating and execution filtering, reduce compromise probability by 0.10, boundary failures by 0.10, and privilege drift by 0.02, all statistically significant at p < 0.0001. The system remains sensitive, but the mitigation impact is measurable. Injection mitigation success differs across models: 0.37 for GPT-5.2, 0.35 for Llama-4-Maverick, and 0.31 for DeepSeek-R1. When execution can be triggered by any single agent, the most vulnerable agent determines system exposure. Mitigations slightly reduce task utility from 0.93 to 0.89 and increase median latency from 420 ms to 468 ms.
- Abstract(参考訳): エージェント型大規模言語モデル(LLM)システムは、テキストを生成するだけでなく、アクションを実行することができる。
モデル出力がシェルコマンド、ブラウザ自動化、外部ツールコールなどの特権操作をトリガーすると、セキュリティ問題はアライメントのみからシステム構成と構造設計にシフトする。
LLM出力がコマンドを実行し、ツールやサービスと対話できる自己ホスト型マルチエージェントシステムであるOpenClawを解析する。
我々は、妥協確率、境界障害、特権ドリフト、そして攻撃能力の増加に伴ってこれらのメトリクスがどのように変化するかを測定する。
1つのエージェントでは、妥協確率は0.24である。
7つのエージェントでシステムがアクションを実行すると、ひとつのエージェントがそれを提案すれば、妥協は0.86に上昇する。
モデルは変化せず、増加は出力アグリゲーションから生じます。
プロンプト注入はシステム全体に不安定を伝播させる。
攻撃面エントロピーは0.42から0.71に増加し、エクスプロイトパスの広範な分布を示す。
平均的な特権ドリフトは0.03から0.21に増加し、意図しない権威の獲得を示す。
0.08の正のエスカレーション曲線は、攻撃能力の増大に伴って特権が向上することを示している。
ポリシーゲーティングと実行フィルタリングを含む防御制御は、妥協確率を0.10、境界故障を0.10、特権のドリフトを0.02、全て統計学的にp < 0.0001で有意である。
システムは依然として敏感だが、緩和効果は測定可能である。
GPT-5.2は0.37、Llama-4-Maverickは0.35、DeepSeek-R1は0.31である。
単一のエージェントによって実行をトリガーできる場合、最も脆弱なエージェントがシステムの露出を決定する。
タスクユーティリティを0.93から0.89にわずかに削減し、中央値のレイテンシを420msから468msに向上させる。
関連論文リスト
- AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security [147.50046962090795]
軽量でスケーラブルなエージェント安全アライメントフレームワークを提案する。
CodexとOpenClawの実行シナリオの緊急リスクに対応するため、エージェント安全分類を更新する。
AgentDoG 1.5 に基づいて,高効率なエージェント安全性 SFT と RL トレーニング環境を構築した。
我々は,AgentDoG 1.5をトレーニング不要のオンラインガードレールとしてリアルタイム安全モデレーションとして展開する。
論文 参考訳(メタデータ) (2026-05-28T11:48:37Z) - The Capability Paradox: How Smarter Auditors Make Multi-Agent Systems Less Secure [11.822284421559814]
これは、有害な要求がドメイン固有の物語の中に隠され、Workerレポートを通じてマネージャに伝達される攻撃である。
労働者の能力が増加するにつれて、平均的なシステムレベルの攻撃成功率(ASR)は18.4%から63.9%に増加し、94.4%がピークである。
非対称なドメイン能力とWorkersのペアを組み合わさった異種アンサンブル検証を提案する。
論文 参考訳(メタデータ) (2026-05-17T14:42:44Z) - Enforcing Benign Trajectories: A Behavioral Firewall for Structured-Workflow AI Agents [0.0]
codenameはテレメトリ駆動の動作異常検出ファイアウォールである。
codenameは検証済みの良性ツールコールテレメトリをパラメータ化された決定論的有限オートマトンにコンパイルする。
コードネームは5つのシナリオで5.6%のマクロ平均攻撃成功率(ASR)を達成する。
論文 参考訳(メタデータ) (2026-04-29T04:02:59Z) - Guardrails as Infrastructure: Policy-First Control for Tool-Orchestrated Workflows [0.0]
Policy-First Toolingは、明示的な制約、リスク認識ゲーティング、リカバリコントロール、監査可能な説明を通じて、ツールの実行を仲介する。
制御された5つのポリシーパックと3つの障害プロファイルをまたいだ225の運用では、厳格なパックにより、違反防止はP0の0.000からP4の0.681に改善され、タスク成功は0.356から0.067に減少した。
論文 参考訳(メタデータ) (2026-03-18T01:19:33Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - Scaling Patterns in Adversarial Alignment: Evidence from Multi-LLM Jailbreak Experiments [4.547649832854566]
大規模言語モデル(LLM)は、マルチエージェントと安全クリティカルな設定でますます運用され、モデルが逆向きに相互作用する際の脆弱性のスケールに関するオープンな疑問が提起される。
本研究は,アライメント保護にもかかわらず有害な拘束行動を引き起こす,より大規模なモデルで,より小さなモデルを体系的に緩和できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-11-16T15:16:33Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。