論文の概要: Dynamic Malicious Skills in Agentic AI
- arxiv url: http://arxiv.org/abs/2606.16287v2
- Date: Tue, 16 Jun 2026 04:41:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.821055
- Title: Dynamic Malicious Skills in Agentic AI
- Title(参考訳): エージェントAIにおける動的悪性度
- Authors: Tianhao Chen, Zhengyuan Jiang, Yuepeng Hu, Yebei Gou, Neil Zhenqiang Gong,
- Abstract要約: スキルはエージェントAIの重要な構成要素である。
本研究では,このような攻撃面の1つを,動的に悪質な技量を示すことによって調査する。
本稿では,カーネル強化型リードオンリーマウントによるスキルの動的変更を防止するシステムレベルディフェンスを提案する。
- 参考スコア(独自算出の注目度): 35.995506406899004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skills are a key enabling component of agentic AI. While they enhance agents' capabilities, they also introduce new attack surfaces. In this work, we investigate one such attack surface by demonstrating dynamic malicious skills. By embedding malicious instructions in natural-language documentation (e.g., SKILL.md), an attacker can induce an agent to dynamically inject malicious logic into an otherwise benign skill during execution. We evaluate this attack across agentic frameworks such as OpenHands and Claude Code, showing that dynamic malicious skills can successfully introduce a range of malicious behaviors at runtime with non-trivial success rates. To mitigate this vulnerability, we propose a system-level defense that prevents dynamic modification of skills using operating system kernel-enforced read-only mounts. Our evaluation demonstrates that this defense effectively blocks dynamic malicious skills while preserving the functionality of benign skills.
- Abstract(参考訳): スキルはエージェントAIの重要な構成要素である。
エージェントの能力を高める一方で、新たな攻撃面も導入している。
本研究では,このような攻撃面の1つを,動的に悪質な技量を示すことによって調査する。
自然言語のドキュメント(例えばSKILL.md)に悪意のある命令を埋め込むことで、攻撃者はエージェントに実行中に悪意のあるロジックを動的に注入する。
我々は、この攻撃をOpenHandsやClaude Codeのようなエージェントフレームワークで評価し、動的に悪意のあるスキルが実行時にさまざまな悪意のある振る舞いを、非自明な成功率で導入できることを示した。
この脆弱性を軽減するため,オペレーティングシステムのカーネル強化型リードオンリーマウントを用いて,スキルの動的変更を防止するシステムレベルディフェンスを提案する。
本評価は,この防御が,良識を保ちながら,ダイナミックな悪意あるスキルを効果的に阻害することを示した。
関連論文リスト
- SkillGuard: A Permission Framework for Agent Skills [14.787581333168859]
我々はスキル中心のパーミッションフレームワークであるSkillGuardを紹介した。
SkillGuardを実世界の315のスキルとSkillInjectで評価した。
論文 参考訳(メタデータ) (2026-06-02T02:01:53Z) - SkillHarm: Lifecycle-Aware Skill-Based Attacks via Automated Construction [89.03272793385054]
エージェントスキルはエージェントワークフローにおける特権的な位置を占め、サードパーティスキルを脆弱な攻撃面にする。
我々はスキルベースアタックのベンチマークであるSkillHarmを紹介した。
攻撃成功率はFPPが86.3%、SMPが69.3%である。
論文 参考訳(メタデータ) (2026-06-01T17:45:39Z) - SkillTrojan: Backdoor Attacks on Skill-Based Agent Systems [28.8194560427555]
SkillTrojanは、モデルパラメータやトレーニングデータではなく、スキル実装をターゲットにしたバックドア攻撃である。
さまざまなスキルパターンとトリガー-ペイロード構成にまたがる、3000以上のキュレートされたバックドアスキルのデータセットをリリースします。
以上の結果から, スキルレベルのバックドアは, 良性行動の低下を最小限に抑え, 極めて効果的であることが示唆された。
論文 参考訳(メタデータ) (2026-04-08T08:24:48Z) - SkillAttack: Automated Red Teaming of Agent Skills through Attack Path Refinement [66.44008181092832]
LLMベースのエージェントシステムは、その能力を拡張するためにオープンレジストリからのエージェントスキルにますます依存している。
SkillAttackは、敵のプロンプトを通じて、スキル脆弱性の脆弱性を検証できるフレームワークである。
論文 参考訳(メタデータ) (2026-04-05T06:25:11Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - Cuckoo Attack: Stealthy and Persistent Attacks Against AI-IDE [64.47951172662745]
Cuckoo Attackは、悪意のあるペイロードを構成ファイルに埋め込むことで、ステルス性と永続的なコマンド実行を実現する新しい攻撃である。
攻撃パラダイムを初期感染と持続性という2つの段階に分類する。
当社は、ベンダーが製品のセキュリティを評価するために、実行可能な7つのチェックポイントを提供しています。
論文 参考訳(メタデータ) (2025-09-19T04:10:52Z) - Automating Privilege Escalation with Deep Reinforcement Learning [71.87228372303453]
本研究では,エージェントの訓練に深層強化学習を用いることで,悪意あるアクターの潜在的な脅威を実証する。
本稿では,最先端の強化学習アルゴリズムを用いて,局所的な特権エスカレーションを行うエージェントを提案する。
我々のエージェントは、実際の攻撃センサーデータを生成し、侵入検知システムの訓練と評価に利用できる。
論文 参考訳(メタデータ) (2021-10-04T12:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。