論文の概要: Runtime Skill Audit: Targeted Runtime Probing for Agent Skill Security
- arxiv url: http://arxiv.org/abs/2606.11671v1
- Date: Wed, 10 Jun 2026 05:29:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.304385
- Title: Runtime Skill Audit: Targeted Runtime Probing for Agent Skill Security
- Title(参考訳): 実行時スキル監査:エージェントスキルセキュリティのためのターゲット実行時プロファイリング
- Authors: Tu Lan, Chaowei Xiao,
- Abstract要約: スキル監査(Skill Audit、RSA)は、スキル仲介エージェントがターゲットランタイム条件下で実際に何をするかを問うことによって、スキルを監査する動的分析手法である。
RSA 90.0%の精度が88.0%の真正レートと8.0%の偽正レートで、最高の静的ベースラインよりも13.0ポイント精度が向上した。
自己進化攻撃の下では、静的検出器は1、2ラウンド後に崩壊し、RSAはラウンド全体で20の悪意のあるスキルのうち19-20を検知し続けている。
- 参考スコア(独自算出の注目度): 42.77195311830774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agent skills let LLM agents reuse instructions, resources, tools, and workflows, but they also create a new place for malicious behavior to hide. A skill may look benign in its documentation or code while becoming harmful only when it is invoked with particular user requests, local assets, persistent state, or multi-step tool interactions. This makes purely static vetting brittle. We present Runtime Skill Audit (RSA), a dynamic analysis method that audits skills by asking what the skill-mediated agent actually does under targeted runtime conditions. Instead of testing every skill with the same generic tasks, RSA profiles risk-relevant interfaces, prepares the execution context needed to exercise them, and assigns security labels from the resulting trace evidence. We instantiate RSA on OpenClaw and evaluate it on 100 skills against representative static baselines. RSA achieves 90.0\% accuracy with an 88.0\% true positive rate and an 8.0\% false positive rate, improving accuracy by 13.0 percentage points over the best static baseline. Under self-evolving attacks, static detectors collapse after one or two rounds, while RSA continues to detect 19--20 out of 20 malicious skills across rounds.
- Abstract(参考訳): エージェントスキルにより、LLMエージェントは命令、リソース、ツール、ワークフローを再利用できるが、悪意のある振る舞いを隠すための新しい場所も作成できる。
特定のユーザリクエスト、ローカルアセット、永続的な状態、マルチステップツールのインタラクションで呼び出される場合にのみ、そのスキルは有害になる。
これにより、純粋に静的なベッティングが不安定になる。
本研究では,スキルを媒介するエージェントが実際に実行条件下で何をするのかを問うことによって,スキルを監査する動的解析手法であるRuntime Skill Audit(RSA)を提案する。
同じジェネリックタスクですべてのスキルをテストする代わりに、RSAはリスク関連インターフェースをプロファイルし、それらを実行するのに必要な実行コンテキストを準備し、結果として得られた痕跡証拠からセキュリティラベルを割り当てる。
OpenClaw上でRSAをインスタンス化し、代表的な静的ベースラインに対して100のスキルで評価する。
RSAは88.0\%の真正レートと8.0\%の偽正レートで90.0\%の精度を達成し、最高の静的ベースラインよりも13.0ポイントの精度を向上させる。
自己進化攻撃の下では、静的検出器は1、2ラウンド後に崩壊し、RSAはラウンド全体で20の悪意のあるスキルのうち19-20を検知し続けている。
関連論文リスト
- SkillJuror: Measuring How Agent Skill Organization Changes Runtime Behavior [23.11308948097101]
現在のベンチマークでは、スキルがどのように組織化されているのかを区別することは滅多にありません。
我々は、この区別をプログレッシブ・開示(Progressive Disclosure)を通じて研究し、簡潔なルートファイルが要求に応じてリソースを支援するためにエージェントを指示する。
本稿では,スキル記述パラダイムを評価するフレームワークであるSkillJurorを紹介する。
論文 参考訳(メタデータ) (2026-06-10T01:11:50Z) - SkillGuard: A Permission Framework for Agent Skills [14.787581333168859]
我々はスキル中心のパーミッションフレームワークであるSkillGuardを紹介した。
SkillGuardを実世界の315のスキルとSkillInjectで評価した。
論文 参考訳(メタデータ) (2026-06-02T02:01:53Z) - SkillHarm: Lifecycle-Aware Skill-Based Attacks via Automated Construction [89.03272793385054]
エージェントスキルはエージェントワークフローにおける特権的な位置を占め、サードパーティスキルを脆弱な攻撃面にする。
我々はスキルベースアタックのベンチマークであるSkillHarmを紹介した。
攻撃成功率はFPPが86.3%、SMPが69.3%である。
論文 参考訳(メタデータ) (2026-06-01T17:45:39Z) - When Skills Don't Help: A Negative Result on Procedural Knowledge for Tool-Grounded Agents in Offensive Cybersecurity [1.3591163361204688]
スキルは、推論時にエージェントにロードされた手続き的知識の構造化パッケージである。
様々な領域で平均16.2%の割合でタスクパス率を改善することが広く報告されている。
しかし、同じベンチマークでは、スキルの導入時に負のデルタに苦しむ84のタスクのうち16が広範囲に分散している。
論文 参考訳(メタデータ) (2026-05-19T15:48:35Z) - SkillSieve: A Hierarchical Triage Framework for Detecting Malicious AI Agent Skills [0.0]
SkillSieveは3層検出フレームワークで、必要に応じてより深く分析する。
400スキルのラベル付きベンチマークでは、SkillSieveは0.800 F1を達成し、ClawVetの0.421を上回った。
論文 参考訳(メタデータ) (2026-04-08T00:58:48Z) - SkillAttack: Automated Red Teaming of Agent Skills through Attack Path Refinement [66.44008181092832]
LLMベースのエージェントシステムは、その能力を拡張するためにオープンレジストリからのエージェントスキルにますます依存している。
SkillAttackは、敵のプロンプトを通じて、スキル脆弱性の脆弱性を検証できるフレームワークである。
論文 参考訳(メタデータ) (2026-04-05T06:25:11Z) - SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization [50.71047638695205]
RLM(Reasoning Language Model)は、プログラミングにおいてますます使われている言語モデルである。
しかし、最先端のRLMでさえ、生成されたコードに重大なセキュリティ脆弱性を頻繁に導入する。
我々は、構造化されたセキュリティ推論を内部化するためのRTMを教える微調整パイプラインであるSecPIを提案する。
論文 参考訳(メタデータ) (2026-04-04T04:29:11Z) - SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks [61.89812116484928]
エージェントスキルは、LLMエージェントを推論時に増強する手続き的知識の構造化パッケージである。
SkillsBenchは、11のドメインにわたる86のタスクのベンチマークであり、キュレートされたスキルと決定論的検証との組み合わせを示す。
キュレートされたスキルは平均パスレートを16.2ポイント(pp)上昇させるが、効果は領域によって大きく異なる。
自己生成スキルは平均的に何の利益も与えず、モデルが消費から得られる手続き的な知識を確実に説明できないことを示している。
論文 参考訳(メタデータ) (2026-02-13T07:06:06Z) - AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。