論文の概要: Local LLM Agents as Vulnerable Runtimes:A Source-Code Audit of the Agent Runtime Layer
- arxiv url: http://arxiv.org/abs/2606.21071v1
- Date: Fri, 19 Jun 2026 03:40:00 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:15:32.050732
- Title: Local LLM Agents as Vulnerable Runtimes:A Source-Code Audit of the Agent Runtime Layer
- Title(参考訳): 脆弱性ランタイムとしてのローカルLLMエージェント:エージェントランタイム層のソースコード監査
- Authors: Zhengsong Zhang, Zongze Li, Jiawei Guo, Haipeng Cai,
- Abstract要約: OpenClawやNanobotといったローカルLLMエージェントはエンドユーザマシン上で動作し、ホストリソースで動作します。
CLAWAUDITは、ローカルエージェントランタイムにおける脆弱性の暴露を測定するための静的監査フレームワークである。
事前のライブコード監査では、これらのリコール指向のルールは手作業によるトリアージを必要とし、本番デプロイメント前にセマンティックフィルタリングを動機付けている。
- 参考スコア(独自算出の注目度): 19.371045551006304
- License:
- Abstract: Local LLM agents such as OpenClaw and Nanobot run on end-user machines and act on host resources - the shell, filesystem, browser, stored credentials, and messaging applications - through natural-language goals. These agents have become privileged software runtimes that mediate between user intent, model outputs, and host-level actions. Existing research characterizes the landscape through prompt injection, malicious skills, marketplace risks, or black-box evaluation of agents. But the implementation layer that performs this mediation, the prompt builder, parser, tool dispatcher, skill loader, memory writer, network client, and permission gate, has remained an unexamined safety boundary. To our knowledge, no prior work has examined the agent's source tree to audit these components for implementation-level security weaknesses. We present CLAWAUDIT, a static auditing framework for measuring vulnerability exposure in local LLM agent runtimes. CLAWAUDIT derives a five-category vulnerability taxonomy from STRIDE and develops custom static-analysis rules that target agent-specific patterns absent from established rule sets for vulnerability analysis. We instantiate the taxonomy in two backends, 47 Semgrep YAML rules and 30 CodeQL queries, and evaluate on OPENCLAWBENCH, a benchmark of 446 source-code-level advisories from the OpenClaw repository and split temporally into 229 rule-derivation (train) and 217 held-out (test) advisories. On the held-out test, CLAWAUDIT raises Semgrep recall from 21.7% (Pro baseline) to 66.8%, and CodeQL recall from 13.8% (security-extended) to 75.1%. Train/test gaps remain within 4 percentage points for all four configurations, indicating that the rules generalize to vulnerabilities unseen during rule writing. A preliminary live-code audit shows that these recall-oriented rules require manual triage, motivating semantic filtering before production deployment.
- Abstract(参考訳): OpenClawやNanobotといったローカルLLMエージェントはエンドユーザマシン上で動作し、自然言語の目標を通じて、シェル、ファイルシステム、ブラウザ、ストアド資格情報、メッセージングアプリケーションといったホストリソースに作用する。
これらのエージェントは、ユーザ意図、モデル出力、ホストレベルのアクションの間を仲介する特権付きソフトウェアランタイムになっている。
既存の研究では、インジェクション、悪意のあるスキル、市場リスク、エージェントのブラックボックス評価を通じて、風景を特徴づけている。
しかし、この仲介を行う実装層、プロンプトビルダー、パーサ、ツールディスパッチ、スキルローダ、メモリライタ、ネットワーククライアント、パーミッションゲートは、未検討の安全境界のままである。
我々の知る限り、エージェントのソースツリーを調べて、これらのコンポーネントを実装レベルのセキュリティの弱点に対して監査する以前の作業はありません。
CLAWAUDITは,ローカルなLLMエージェント実行時の脆弱性露出を測定するための静的監査フレームワークである。
CLAWAUDITはSTRIDEから5つのカテゴリの脆弱性分類を派生し、脆弱性分析のために確立されたルールセットから存在しないエージェント固有のパターンをターゲットとするカスタムな静的分析ルールを開発する。
2つのバックエンド、47のSemgrep YAMLルールと30のCodeQLクエリで分類をインスタンス化し、OpenClawリポジトリから446のソースコードレベルのアドバイザリのベンチマークであるOPENCLAWBENCHを評価し、一時的に229のルールデリバティブ(トレイン)と217のホールドアウト(テスト)アドバイザリに分割した。
ホールドアウトテストでは、CLAWAUDITはSemgrepリコールを21.7%(Proベースライン)から66.8%、CodeQLリコールを13.8%(セキュリティ拡張)から75.1%に引き上げている。
トレイン/テストのギャップは4つの設定すべてで4ポイント以内であり、ルールがルール記述中に見えない脆弱性に一般化されることを示している。
事前のライブコード監査では、これらのリコール指向のルールは手作業によるトリアージを必要とし、本番デプロイメント前にセマンティックフィルタリングを動機付けている。
関連論文リスト
- A Layered Security Framework Against Prompt Injection in RAG-Based Chatbots [1.948261185683419]
推論パイプライン全体を通して直接および間接的なインジェクションをインターセプトする3層フレームワークを提案する。
GPT-4o、Llama 3、Mistral 7Bの5,080サンプルの評価は、このフレームワークが攻撃成功率(ASR)を71.4%から11.3%に下げていることを示している。
論文 参考訳(メタデータ) (2026-06-17T23:59:57Z) - From Attack Simulation to SIEM Rule: Deterministic Detection-as-Code Synthesis with Probe-Level Traceability [51.56484100374058]
セキュリティチームは、自身のシステムに対する攻撃をシミュレートして、監視が真の侵入者を捕まえるかどうかをチェックする。
人間はそのギャップを手でブリッジし、それぞれの発見を読み、対応するシグマルールを書きます。
ロックされたコーパスからプローブが引き出されると,この変換が部分的に自動化されることを示す。
論文 参考訳(メタデータ) (2026-06-03T14:26:25Z) - SecureForge: Finding and Preventing Vulnerabilities in LLM-Generated Code via Prompt Optimization [61.91729298584227]
SecureForgeは、フロンティアモデルのセキュリティリスクを監査し、監査インフォームされたセキュアなシステムプロンプトを生成する自動化パイプラインである。
SecureForgeは、まず静的に検出可能な脆弱性を生成する良性プロンプトを特定し、その後、さまざまなシナリオの大規模な合成プロンプトコーパスに増幅する。
フロンティアモデルでは、SecureForgeは、ユニットテストの成功と出力セキュリティの両方において統計的に有意な改善をもたらし、出力脆弱性は最大48%削減された。
論文 参考訳(メタデータ) (2026-05-08T18:40:47Z) - SkillSieve: A Hierarchical Triage Framework for Detecting Malicious AI Agent Skills [0.0]
SkillSieveは3層検出フレームワークで、必要に応じてより深く分析する。
400スキルのラベル付きベンチマークでは、SkillSieveは0.800 F1を達成し、ClawVetの0.421を上回った。
論文 参考訳(メタデータ) (2026-04-08T00:58:48Z) - Supply-Chain Poisoning Attacks Against LLM Coding Agent Skill Ecosystems [35.65937852381774]
Document-Driven Implicit Payload Execution (DDIPE)は、コード例や設定テンプレートに悪意のあるロジックを埋め込む。
我々は15のMITRE ATTACKカテゴリで81種から1,070の対逆スキルを生成した。
DDIPEは11.6%から33.5%のバイパス率を獲得し、明示的な命令攻撃は強い防御下で0%を達成する。
論文 参考訳(メタデータ) (2026-04-03T14:58:58Z) - Agent Audit: A Security Analysis System for LLM Agent Applications [8.09697219899781]
Agent Auditは、LLMエージェントアプリケーションのセキュリティ分析システムである。
Pythonエージェントのコードとデプロイアーティファクトをエージェント認識パイプラインを通じて分析する。
6つの偽陽性を持つ40の脆弱性を検出し、一般的なSASTベースラインに対するリコールを大幅に改善する。
論文 参考訳(メタデータ) (2026-03-24T06:44:51Z) - You Told Me to Do It: Measuring Instructional Text-induced Private Data Leakage in LLM Agents [9.719776777345364]
外部文書を自律的に処理する高特権のLLMエージェントは、タスクを自動化するためにますます信頼されている。
これらのエージェントには、最小限のセキュリティ監視で端末アクセス、制御、アウトバウンドネットワーク接続が与えられる。
emphTrusted Executor Dilemmaと呼ばれるこの信頼モデルの基本的脆弱性を測定する。
この脆弱性は、実装バグではなく、命令追従設計パラダイムの構造的な結果である。
論文 参考訳(メタデータ) (2026-03-12T12:35:46Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
安全ガード要求を満たすか否かを動的に確認し,目標エージェントを保護する最初のガードレールエージェントであるガードアジェントを提案する。
特にGuardAgentは、まず安全ガードの要求を分析してタスクプランを生成し、それからその計画をガードレールコードにマップして実行します。
GuardAgentは、それぞれ98%と83%のガードレール精度を持つ2つのベンチマークにおいて、異なる種類のエージェントに対する違反行為を効果的に抑制することを示した。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。