論文の概要: Stealthy World Model Manipulation via Data Poisoning
- arxiv url: http://arxiv.org/abs/2606.18697v1
- Date: Wed, 17 Jun 2026 05:24:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.014867
- Title: Stealthy World Model Manipulation via Data Poisoning
- Title(参考訳): データポジショニングによる定常世界モデル操作
- Authors: Yibin Hu, Xiaolin Sun, Zizhan Zheng,
- Abstract要約: SWAAPは、学習の世界モデルのための最初の2段階のデータ中毒フレームワークである。
第一段階では、SWAAPは、計画中の低リターン行動を引き起こす有害な標的世界モデルを特定する。
第2段階では、SWAAPはステルス制約付き勾配マッチングによりこの目標を実現する。
- 参考スコア(独自算出の注目度): 6.257560917160816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based learning agents use learned world models to predict future states, plan actions, and adapt to new environments. However, the process of updating world models from collected experience creates a training-time attack surface: adversarially poisoned fine-tuning trajectories can manipulate the learned dynamics and thereby corrupt downstream planning. In this paper, we propose SWAAP, the first two-stage data poisoning framework for learned world models. In the first stage, SWAAP identifies a harmful target world model that induces low-return behavior under planning while remaining close to clean dynamics, using first-order bilevel optimization enabled by a transition-gradient theorem. In the second stage, SWAAP realizes this target through stealth-constrained gradient matching, modifying only a limited fraction of fine-tuning transition targets so that the induced training gradients steer the victim model toward the adversarial target, while a prediction-error regularizer encourages the poisoned targets to remain close to the world model's natural approximation error. To assess attack stealthiness, we evaluate defenses and detectability across three stages of the poisoning pipeline: pre-training detection of poisoned transitions, robust training during fine-tuning, and test-time monitoring of the resulting world model. Across diverse continuous-control tasks, SWAAP causes substantial performance degradation while keeping poisoned transitions close to clean data and evading the evaluated non-adaptive residual/CUSUM/TRIM-style defenses. These results reveal a practical vulnerability in world-model adaptation pipelines and highlight the need for robustness methods that protect both world-model training data and learned dynamics.
- Abstract(参考訳): モデルベースの学習エージェントは、学習した世界モデルを使用して将来の状態を予測し、アクションを計画し、新しい環境に適応する。
しかし、収集された経験から世界モデルを更新するプロセスは、訓練時の攻撃面を生成する。
本稿では,学習世界モデルのための最初の2段階データ中毒フレームワークであるSWAAPを提案する。
第一段階において、SWAAPは、遷移勾配定理によって実現された一階二段階最適化を用いて、クリーンダイナミクスに近づきながら計画中の低反転挙動を誘導する有害な標的世界モデルを特定する。
第2段階では、SWAAPは、この目標をステルス拘束された勾配マッチングにより実現し、微調整された遷移目標の限られた部分だけを変更して、誘導訓練勾配が犠牲者モデルを敵目標に向けて操る一方、予測エラー正規化器は、被毒標的が世界モデルの自然な近似誤差に近づき続けることを奨励する。
攻撃ステルスネスを評価するため,毒素パイプラインの3段階にわたる防御と検出性の評価を行った。毒素トランジションの事前学習,微調整時の堅牢なトレーニング,結果の世界モデルのテスト時間モニタリングである。
各種連続制御タスク全体にわたって、SWAAPは、汚染された遷移をクリーンデータに近く保ち、評価された非適応的残留/CUSUM/TRIMスタイルの防御を回避しながら、大幅な性能劣化を引き起こす。
これらの結果は,ワールドモデル適応パイプラインの実用的脆弱性を明らかにし,ワールドモデルトレーニングデータと学習力学の両方を保護するロバストネス手法の必要性を強調した。
関連論文リスト
- PROWL: Prioritized Regret-Driven Optimization for World Model Learning [20.10187986360715]
我々は,拡散に基づく世界モデルの高次軌道を公開するための政策を訓練する,KL制約の逆行カリキュラムを導入する。
提案手法をMineRLフレームワークで実装し, 既設のアウト・オブ・ディストリビューション・トラジェクトリで評価する。
論文 参考訳(メタデータ) (2026-05-11T14:24:19Z) - TRAP: Tail-aware Ranking Attack for World-Model Planning [6.036879290384491]
世界モデルは、想像上の軌道の長い尾のランキング構造に根ざした、明確なバックドアの脆弱性を示す。
この脆弱性を悪用するため,世界モデルのためのバックドアアタックフレームワークであるTRAPを提案する。
論文 参考訳(メタデータ) (2026-05-03T16:19:45Z) - World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry [82.93104394404781]
汎用世界モデルは、スケーラブルなポリシー評価、最適化、計画を約束します。
本稿では,世界モデルによる予測誤りと自己改善を識別するフレームワークであるWorld Action Verifier(WAV)を提案する。
論文 参考訳(メタデータ) (2026-04-02T12:48:36Z) - When World Models Dream Wrong: Physical-Conditioned Adversarial Attacks against World Models [54.08784776767683]
本稿では,物理条件を乱す最初のホワイトボックス世界モデルアタックであるPhysCond-WMA(PhysCond-WMA)を提案する。
PhysCond-WMAは知覚の忠実さを維持しながら意味、論理、決定レベルの歪みを引き起こす。
論文 参考訳(メタデータ) (2026-02-21T07:22:37Z) - SecureFed: A Two-Phase Framework for Detecting Malicious Clients in Federated Learning [0.0]
フェデレートラーニング(FL)は、モデルをトレーニングするための分散メソッドを提供しながら、データのプライバシを保護する。
分散スキーマのため、結果を変えたり、モデルのパフォーマンスを妨害したりできる敵のクライアントに感受性がある。
本研究では,攻撃者の影響を識別・低減する二相FLフレームワークSecureFedを提案する。
論文 参考訳(メタデータ) (2025-06-19T16:52:48Z) - ACT-JEPA: Novel Joint-Embedding Predictive Architecture for Efficient Policy Representation Learning [90.41852663775086]
ACT-JEPAは模倣学習と自己教師型学習を統合する新しいアーキテクチャである。
我々はアクションシーケンスと抽象的な観察シーケンスを予測するポリシーを訓練する。
実験の結果,ACT-JEPAは時間環境の動的学習によって表現の質を向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-24T16:41:41Z) - Module-wise Adaptive Adversarial Training for End-to-end Autonomous Driving [33.90341803416033]
エンドツーエンドの自律運転モデルのためのモジュールワイド適応適応適応訓練(MA2T)を提案する。
本稿では,異なるモジュールが入力される前にノイズを注入するモジュールワイドノイズインジェクションについて紹介する。
また,各モジュールの損失重みを適応的に学習・調整するために,蓄積した重み変化を組み込んだ動的重み蓄積適応を導入する。
論文 参考訳(メタデータ) (2024-09-11T15:00:18Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。