論文の概要: PolicyGuard: Towards Test-time and Step-level Adversary Defense for Reinforcement Learning Agent
- arxiv url: http://arxiv.org/abs/2606.12896v1
- Date: Thu, 11 Jun 2026 04:54:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.583803
- Title: PolicyGuard: Towards Test-time and Step-level Adversary Defense for Reinforcement Learning Agent
- Title(参考訳): PolicyGuard: 強化学習エージェントのためのテストタイムとステップレベルの敵防衛を目指して
- Authors: Junfeng Guo Heng Huang,
- Abstract要約: 我々は、強化学習のためのテキストテスト時のステップレベルのバックドアディフェンスであるtextttPolicyGuardを提案する。
PolicyGuardは、ほとんどのケースで最先端の検知性能を達成しており、摂動ベースの攻撃では平均0.856のAUROC、敵対的な攻撃では0.859のAUROCである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While real-world applications of reinforcement learning (RL) are becoming increasingly popular, the security of RL systems deserve more attention and exploration. In particular, recent work has revealed that RL agents are vulnerable to backdoor attacks, where a victim agent behaves normally under standard conditions but executes malicious actions when a specific trigger is activated. Existing backdoor defenses for RL either require access to the agent's internal parameters, operate only at the model or trajectory level, or are limited to specific attack types. To ensure the security of RL agents, we propose \texttt{PolicyGuard}, a \textit{test-time step-level} backdoor defense which leverages Gaussian Process (GP) posterior variance and adapts pseudo trajectories to enable uncertainty computation for individual time step. Besides, we also provide theoretical foundations to explain the efficacy of GP posterior variance. Extensive experiments across seven RL games demonstrate that PolicyGuard achieves state-of-the-art detection performance in most cases, with average AUROC of 0.856 for perturbation-based attacks and 0.859 for adversary-agent attacks.
- Abstract(参考訳): 強化学習(RL)の現実的な応用がますます普及しつつある一方で、RLシステムのセキュリティはより注意と調査に値する。
特に最近の研究は、RLエージェントがバックドア攻撃に対して脆弱であることを明らかにしており、被害者エージェントは通常、標準条件下で動作するが、特定のトリガーが活性化されたときに悪意のあるアクションを実行する。
既存のRLのバックドア防御は、エージェントの内部パラメータへのアクセスを必要とするか、モデルまたは軌道レベルでのみ動作するか、特定の攻撃タイプに限定される。
RLエージェントのセキュリティを確保するため,ガウス過程 (GP) の後方分散を活用し,擬似トラジェクトリを適用して個々の時間ステップに対する不確実性計算を可能にする, \textt{PolicyGuard} というバックドアディフェンスを提案する。
また,GP後部分散の有効性を説明する理論的基礎も提供する。
7つのRLゲームにわたる大規模な実験により、PhysageGuardは、ほとんどのケースで最先端の検出性能を達成し、摂動ベースの攻撃では平均0.856のAUROC、対向エージェント攻撃では0.859のAUROCが達成された。
関連論文リスト
- BehaviorGuard: Online Backdoor Defense for Deep Reinforcement Learning [32.53874142863277]
バックドア攻撃は深層強化学習(DRL)に深刻な脅威をもたらす
現在の防衛は、バックドアを除去するためのリバースエンジントリガーやファインタニングのモデルへの報酬異常に依存している。
本稿では,DRLのための行動に基づくバックドア検出・緩和フレームワークであるBehavimentGuardを提案する。
論文 参考訳(メタデータ) (2026-05-07T10:21:14Z) - Adversarial Inception Backdoor Attacks against Reinforcement Learning [16.350898218047405]
最近の研究は、訓練時間、バックドア中毒に対するDeep Reinforcement Learning (DRL)アルゴリズムの脆弱性を実証している。
本稿では,厳格な報酬制約の下で,DRLに対する新たなバックドア攻撃法を提案する。
論文 参考訳(メタデータ) (2024-10-17T19:50:28Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - SleeperNets: Universal Backdoor Poisoning Attacks Against Reinforcement Learning Agents [16.350898218047405]
強化学習(Reinforcement Learning, RL)は、現実世界の安全クリティカルなアプリケーションでの利用が増加している分野である。
この研究では、特にステルス性のRL(バックドア中毒)に対するトレーニングタイムアタックを調査します。
我々は、敵の目的と最適な政策を見出す目的を結びつける新しい毒殺の枠組みを定式化する。
論文 参考訳(メタデータ) (2024-05-30T23:31:25Z) - BadRL: Sparse Targeted Backdoor Attack Against Reinforcement Learning [37.19070609394519]
強化学習(RL)におけるバックドア攻撃は、これまで攻撃の成功を確実にするために激しい攻撃戦略を採用してきた。
本研究は, トレーニングおよび試験において, 背部毒を多量に投与することに焦点を当てた新しいアプローチであるBadRLを提案する。
私たちのアルゴリズムであるBadRLは、高い攻撃値を持つ状態観測を戦略的に選択し、トレーニングやテスト中にトリガーを注入し、検出の機会を減らす。
論文 参考訳(メタデータ) (2023-12-19T20:29:29Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。