論文の概要: MalSkillBench: A Runtime-Verified Benchmark of Malicious Agent Skills
- arxiv url: http://arxiv.org/abs/2606.07131v2
- Date: Tue, 09 Jun 2026 05:43:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 13:21:50.70641
- Title: MalSkillBench: A Runtime-Verified Benchmark of Malicious Agent Skills
- Title(参考訳): MalSkillBench: 悪質なエージェントスキルのランタイム検証ベンチマーク
- Authors: Wenbo Guo, Wei Zeng, Chengwei Liu, Xiaojun Jia, Yijia Xu, Lei Tang, Yong Fang, Yang Liu,
- Abstract要約: MalSkillBenchは、悪質なエージェントスキルの最初のランタイム検証ベンチマークである。
コードインジェクションは94.5%に達するが、迅速なインジェクションは75.8%に過ぎない。
データセット、パイプライン、ベースライン、結果をリリースしています。
- 参考スコア(独自算出の注目度): 24.371534406647978
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: AI coding agents such as Claude Code and Gemini CLI increasingly extend themselves with third-party skills: markdown packages bundling natural-language instructions, executable scripts, and tool permissions. Because a skill is at once code and agent-facing instruction, it introduces a supply chain dependency whose risk is neither pure code nor pure prompt. Detection tools have never been measured against verified ground truth spanning this hybrid space, leaving their effectiveness unknown and wild-only evaluations biased. We present MalSkillBench, the first runtime-verified benchmark of malicious agent skills: 3,944 malicious skills labeled along a three-dimensional taxonomy of 108 cells. Of these, 3,214 come from a closed-loop Generate-Verify-Feedback pipeline admitting only samples whose malicious behavior fires inside a Docker sandbox under system-call monitoring and an LLM judge; we add 703 in-the-wild and 4,000 matched benign skills. Our measurements are consistent: code injection reaches 94.5% verification yield but prompt injection only 75.8%, the same fragility that later makes it hard to detect; the wild sample is narrow, dominated by one cryptocurrency-theft campaign (86.6% one behavior, 81% from two accounts) with a small but architecturally new tail attacking the agent control plane; the strongest skill-specific detector reaches 98.4% recall on code injection yet collapses on prompt-injection and agent-control attacks, and wild-only scoring swings the ranking by up to 66 recall points; supply-chain scanners and prompt-injection defenses each see only half of a skill, and no combination recovers the code-instruction relationship. Detecting malicious skills therefore requires reasoning jointly over task intent, code, and instructions. We release the dataset, pipeline, baselines, and results.
- Abstract(参考訳): Claude CodeやGemini CLIといったAIコーディングエージェントは、自然言語命令をバンドルするマークダウンパッケージ、実行可能なスクリプト、ツールパーミッションなど、サードパーティのスキルでますます拡張されている。
スキルは一度にコードとエージェント対応の命令であるため、リスクが純粋なコードでも純粋なプロンプトでもないサプライチェーン依存性が導入される。
検出ツールは、このハイブリッド空間にまたがる検証済みの真実に対して測定されたことはない。
我々はMalSkillBenchについて紹介する。MalSkillBenchは、悪質なエージェントスキルの最初のランタイム検証ベンチマークで、3,944の悪質なスキルを108の細胞の3次元分類でラベル付けした。
そのうち3,214はクローズドループのGenerate-Verify-Feedbackパイプラインから提供され、システムコール監視下のDockerサンドボックス内で悪意ある振る舞いが発火するサンプルとLLMジャッジのみを許可しています。
コードインジェクションは94.5%に達するが、プロンプトインジェクションは75.8%に過ぎず、後に検出するのが難しくなった。ワイルドサンプルは1つの暗号通貨盗難キャンペーン(86.6%の行動、1つの行動、81%は2つのアカウントから)によって支配され、エージェントコントロールプレーンを攻撃し、アーキテクチャ上は比較的新しいテールで、最強のスキル特異的検出器は98.4%リコールされ、コードインジェクションはプロンプトインジェクションとエージェントコントロール攻撃で崩壊し、ワイルドオンリーのスコアは66リコールポイントまで上昇し、サプライチェーンスキャナとインジェクション防衛はいずれもスキルの半分しか見えず、コードインストラクションの関係は回復しない。
したがって、悪意のあるスキルを検出するには、タスク意図、コード、指示を共同で推論する必要がある。
データセット、パイプライン、ベースライン、結果をリリースしています。
関連論文リスト
- SkillHarm: Lifecycle-Aware Skill-Based Attacks via Automated Construction [89.03272793385054]
エージェントスキルはエージェントワークフローにおける特権的な位置を占め、サードパーティスキルを脆弱な攻撃面にする。
我々はスキルベースアタックのベンチマークであるSkillHarmを紹介した。
攻撃成功率はFPPが86.3%、SMPが69.3%である。
論文 参考訳(メタデータ) (2026-06-01T17:45:39Z) - ClawHub Security Signals: When VirusTotal, Static Analysis, and SkillSpector Disagree [0.4464102544889847]
ClawHub Security Signalsは67,453の最新のOpenClawスキルバージョンをサニタイズしたデータセットである。
各行はSKILL.mdコンテンツと、最後のClawScanレジストリの検証と3つのスキャナーファミリからのエビデンスを含む、サニタイズされたバンドルファイルとをペアリングする。
悪質なスキルの有病率を推定するよりも、スキャナの不一致を調査する。
これらの結果は、エージェントスキルのセキュリティは、単一スキャナの許容/ブロック決定ではなく、階層化されたガバナンスを必要とすることを示している。
論文 参考訳(メタデータ) (2026-05-31T23:20:25Z) - Benchmarking Security Risk Detection and Verification in Open Agentic Skill Ecosystems [12.697933469209586]
オープンエージェントスキルエコシステムのための2段階のセキュリティ検証ベンチマークであるSkillVetBenchを紹介します。
最初のステージでは、各スキルの自然言語仕様に対してセマンティックな検証を行い、隠れた悪意のある意図を検出する。
第2ステージは、計測されたサンドボックスでフラグ付きスキルを実行し、実行時の振る舞いを観察し、監査可能な証拠を収集する。
論文 参考訳(メタデータ) (2026-05-30T23:19:30Z) - Under the Hood of SKILL.md: Semantic Supply-chain Attacks on AI Agent Skill Registry [49.83108591873481]
SKILL.md - エージェントスキルライフサイクルの3つのステージを対象とするアタックのみを調査する。
SKILL.mdは受動的ドキュメントではなく、サードパーティのエージェントが発見し、信頼し、使用する機能を形成する運用テキストであることを示す。
論文 参考訳(メタデータ) (2026-05-12T02:11:54Z) - MOSAIC-Bench: Measuring Compositional Vulnerability Induction in Coding Agents [2.1942030377331245]
コーディングエージェントは、しばしばプロンプト毎の安全性レビューをパスするが、それらのタスクが通常のエンジニアリングチケットに分解されると、悪用可能なコードを出荷する。
199個の3段階攻撃チェーンのベンチマークであるMOSAIC-Benchを紹介する。
9つのプロダクションコーディングエージェントが53~86%の終末ASRで無害なチケットを構成しており、全ステージで2回しか拒否しないことを示す。
論文 参考訳(メタデータ) (2026-05-05T16:38:23Z) - SkillSieve: A Hierarchical Triage Framework for Detecting Malicious AI Agent Skills [0.0]
SkillSieveは3層検出フレームワークで、必要に応じてより深く分析する。
400スキルのラベル付きベンチマークでは、SkillSieveは0.800 F1を達成し、ClawVetの0.421を上回った。
論文 参考訳(メタデータ) (2026-04-08T00:58:48Z) - Credential Leakage in LLM Agent Skills: A Large-Scale Empirical Study [51.717224133855886]
サードパーティのスキルはLLMエージェントを強力な能力で拡張するが、特権のある環境では機密情報を扱うことが多い。
静的解析,サンドボックステスト,手動検査を用いて17,022のスキル(SkillsMPで170,226からサンプリング)を分析した。
我々は,1,708の課題で520の脆弱なスキルを識別し,10の漏洩パターン(事故4件,反対6件)の分類を導出する。
論文 参考訳(メタデータ) (2026-04-03T14:50:16Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - Malicious Agent Skills in the Wild: A Large-Scale Security Empirical Study [47.60135753021306]
サードパーティのエージェントスキルは、LLMベースのエージェントを拡張して、命令ファイルとユーザのマシン上で動作する実行可能なコードを生成する。
結果として生じる脅威を特徴づけるために、地中真実のデータセットは存在しない。
我々は,98,380のスキルを行動検証することで,悪質なエージェントスキルのラベル付きデータセットを構築した。
論文 参考訳(メタデータ) (2026-02-06T09:52:27Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。