論文の概要: SkillMutator: Benchmarking and Defending Language-and-Code Cross-modal Attacks on LLM Agent Skills
- arxiv url: http://arxiv.org/abs/2606.14154v1
- Date: Fri, 12 Jun 2026 06:27:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.773065
- Title: SkillMutator: Benchmarking and Defending Language-and-Code Cross-modal Attacks on LLM Agent Skills
- Title(参考訳): SkillMutator: LLMエージェントスキルに対する言語とコードのクロスモーダルアタックのベンチマークと修正
- Authors: Youngduk Kim, Minkyoo Song, Seungwon Shin,
- Abstract要約: 大きな言語モデル(LLM)エージェントは、エージェントスキルをロードすることで、実行時にその機能を拡張する。
スキルの振る舞いは自然言語命令と実行可能コードの両方に依存しているため、その安全性を評価するにはクロスモーダル推論が必要である。
我々は、Agent Skillsに対する言語とコードのクロスモーダル攻撃をインストール時に検出する最初のベンチマークであるSkillMutatorを紹介した。
- 参考スコア(独自算出の注目度): 7.465256215885481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents increasingly extend their capabilities at runtime by loading Agent Skills, which pair natural-language specifications (SKILL.md) with executable scripts and resources. Because a skill's behavior relies on both natural-language instructions and executable code, assessing its safety requires cross-modal reasoning, creating a new language-and-code attack surface. Attackers can present a benign workflow in SKILL.md while embedding implicit directives that steer the agent to exfiltrate sensitive files, even if the scripts appear harmless. This attack surface remains understudied; prior work treats skills merely as prompt-injection vectors or static code artifacts, leaving attacks emerging from cross-modal interactions largely unmeasured. In our evaluation, open-source and commercial skill scanners detect only 2%-8% and 9%-17% of such attacks, respectively. To address this gap, we introduce SkillMutator, the first benchmark for install-time detection of language-and-code cross-modal attacks on Agent Skills. It emulates an adversarial mutation process across 13 attack categories, iteratively refining malicious skills using scanner feedback to make injected behaviors indistinguishable from legitimate workflows. We further propose a four-phase reasoning-trajectory distillation framework to distill frontier-teacher traces into smaller open-weight models. This produces a locally deployable scanner avoiding third-party data exposure and excessive API costs. On the strongest SkillMutator subset (n=76), our distilled model (Qwen2.5-Coder-7B-Instruct) improves detection from 17.1% to 88.2%, surpassing GPT-4o-mini (23.7%) and GPT-5.4-mini (79.0%), and reaching frontier-level GPT-5.4 (86.8%). These results show practical defense against cross-modal attacks is feasible without relying on costly frontier models.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、実行可能なスクリプトとリソースを組み合わせた自然言語仕様(SKILL.md)であるAgens Skillsをロードすることで、実行時にその能力を拡大する。
スキルの振る舞いは自然言語命令と実行可能コードの両方に依存しているため、安全性を評価するにはクロスモーダルな推論が必要である。
攻撃者は、SKILL.mdに暗黙の指示を埋め込んで、たとえスクリプトが無害に見えるとしても、エージェントが機密ファイルを流出させるような良質なワークフローを提示することができる。
以前の作業では、単にプロンプトインジェクションベクターや静的コードアーティファクトとしてスキルを扱い、クロスモーダルなインタラクションから発生する攻撃は、ほとんど計測されていない。
評価では,オープンソースのスキルスキャナーと商用のスキルスキャナーがそれぞれ2%~8%,9%~17%しか検出していない。
このギャップに対処するため、エージェントスキルに対する言語とコードのクロスモーダル攻撃をインストール時に検出する最初のベンチマークであるSkillMutatorを紹介した。
13の攻撃カテゴリにまたがる敵の突然変異プロセスをエミュレートし、スキャナーフィードバックを使って悪意あるスキルを反復的に洗練し、正当なワークフローと区別できない振る舞いを注入する。
さらに,フロンティア・教師の痕跡をより小さなオープンウェイトモデルに蒸留する4相推論・軌跡蒸留フレームワークを提案する。
これにより、サードパーティのデータ露出や過剰なAPIコストを回避するために、ローカルにデプロイ可能なスキャナが生成される。
最も強いSkillMutatorサブセット(n=76)では、蒸留モデル(Qwen2.5-Coder-7B-Instruct)が17.1%から88.2%に改善し、GPT-4o-mini(23.7%)とGPT-5.4-mini(79.0%)を上回り、フロンティアレベルのGPT-5.4(86.8%)に達した。
これらの結果は、高価なフロンティアモデルに頼ることなく、クロスモーダル攻撃に対する実用的な防御が可能であることを示している。
関連論文リスト
- SkillHarm: Lifecycle-Aware Skill-Based Attacks via Automated Construction [89.03272793385054]
エージェントスキルはエージェントワークフローにおける特権的な位置を占め、サードパーティスキルを脆弱な攻撃面にする。
我々はスキルベースアタックのベンチマークであるSkillHarmを紹介した。
攻撃成功率はFPPが86.3%、SMPが69.3%である。
論文 参考訳(メタデータ) (2026-06-01T17:45:39Z) - Under the Hood of SKILL.md: Semantic Supply-chain Attacks on AI Agent Skill Registry [49.83108591873481]
SKILL.md - エージェントスキルライフサイクルの3つのステージを対象とするアタックのみを調査する。
SKILL.mdは受動的ドキュメントではなく、サードパーティのエージェントが発見し、信頼し、使用する機能を形成する運用テキストであることを示す。
論文 参考訳(メタデータ) (2026-05-12T02:11:54Z) - BadSkill: Backdoor Attacks on Agent Skills via Model-in-Skill Poisoning [34.60596020541521]
我々はBadSkillを紹介します。BadSkillは、モデル・イン・スキル脅威サーフェスをターゲットとするバックドア攻撃の定式化です。
BadSkillでは、敵が隠れペイロードをアクティベートするために、組み込まれたモデルがバックドアで調整された、一見良心的なスキルを公開している。
ベンチマークは8つのトリガータスクと5つの非トリガー制御スキルを含む13のスキルにまたがっており、主な評価セットは571の負のクラスクエリと396のトリガー整列クエリである。
BadSkillは8つのトリガースキルの平均攻撃成功率(ASR)を99.5%まで達成し、負のクラスのクエリに対して強い良識的な精度を維持している。
論文 参考訳(メタデータ) (2026-04-10T14:48:29Z) - Supply-Chain Poisoning Attacks Against LLM Coding Agent Skill Ecosystems [35.65937852381774]
Document-Driven Implicit Payload Execution (DDIPE)は、コード例や設定テンプレートに悪意のあるロジックを埋め込む。
我々は15のMITRE ATTACKカテゴリで81種から1,070の対逆スキルを生成した。
DDIPEは11.6%から33.5%のバイパス率を獲得し、明示的な命令攻撃は強い防御下で0%を達成する。
論文 参考訳(メタデータ) (2026-04-03T14:58:58Z) - Skill-Inject: Measuring Agent Vulnerability to Skill File Attacks [27.120130204872325]
SkillInjectは、広く使われているLLMエージェントの、スキルファイルによるインジェクションに対する感受性を評価するベンチマークである。
SkillInjectには、明らかに悪意のあるインジェクションから、その他の正当な命令に隠された微妙なコンテキスト依存的なアタックまで、202のインジェクションタスクペアが含まれている。
以上の結果から,今日のエージェントは,フロンティアモデルによる攻撃成功率の最大80%に対して,非常に脆弱であることが示唆された。
論文 参考訳(メタデータ) (2026-02-23T18:59:27Z) - AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning [63.481446315733145]
多言語大言語モデル(LLM)に対する言語間バックドア攻撃は未調査である。
本研究は, 教育指導データが有毒でない言語に対して, 教育指導データの有毒化がアウトプットに与える影響について検討した。
本手法は,mT5 や GPT-4o などのモデルにおいて,高い攻撃成功率を示し,12言語中7言語以上で90%以上を突破した。
論文 参考訳(メタデータ) (2024-04-30T14:43:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。