論文の概要: Targeting World Models to Compromise Robot Learning Pipelines
- arxiv url: http://arxiv.org/abs/2606.09499v1
- Date: Mon, 08 Jun 2026 13:50:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.165431
- Title: Targeting World Models to Compromise Robot Learning Pipelines
- Title(参考訳): ロボット学習パイプラインを補完する世界モデルの構築
- Authors: Ethan Rathbun, Ahmed Agha, Saaduddin Mahmud, Christopher Amato, Alina Oprea, Eugene Bagdasarian,
- Abstract要約: 我々は、世界モデルがロボット学習サプライチェーンにステルスで効果的なデータ中毒のエントリポイントを導入することを実証した。
我々の新しい攻撃手法は、世界モデルを介して一度だけ活性化された遠隔操作データセットに悪意あるプロンプトを注入する。
これにより、合成され、危険なロボット訓練軌道が生成され、その後、安全でない、あるいは侵害されたロボットポリシーが生成される。
- 参考スコア(独自算出の注目度): 18.24564473642909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models have recently seen a rapid growth in both their popularity and capability as more data efficient tools for generating robot training data or simulating real world environments, with many works proposing their integration into the robot learning pipeline. While highly practical, in this work we demonstrate that world models introduce a uniquely stealthy and effective data poisoning entry point into the robot learning supply chain that can result in the deployment of unsafe or otherwise compromised robotic policies despite training on seemingly safe ground truth training data. In contrast to traditional data poisoning techniques which directly implant dangerous trajectories into sold or uploaded datasets, our novel attack methods inject malicious prompts or compromising transition dynamics into visibly safe teleoperated datasets which are only activated once fed through a world model as input. This can result in the generation of synthetic, dangerous robot training trajectories and subsequently unsafe or compromised robot policies. We demonstrate the effectiveness of our attacks against both state of the art action conditioned and text conditioned world models, showing a full end-to-end backdoor on a downstream DRL policy and a proof-of-concept for the VLA setting. Overall these findings necessitate research into more secure world models and reevaluating their position within the robot learning supply chain.
- Abstract(参考訳): 最近、世界モデルは、ロボットのトレーニングデータを生成したり、現実世界の環境をシミュレートするための、より効率的なツールとして、その人気と能力の両方を急速に成長させてきた。
非常に実用的ではあるが、この研究では、世界モデルがユニークなステルスで効果的なデータ中毒のエントリポイントをロボット学習サプライチェーンに導入することを示した。
販売またはアップロードされたデータセットに直接危険な軌跡を直接埋め込む従来のデータ中毒技術とは対照的に、我々の新しい攻撃手法は悪意のあるプロンプトを注入したり、過度に安全な遠隔操作データセットに遷移ダイナミクスを注入する。
これにより、合成され、危険なロボット訓練軌道が生成され、その後、安全でない、あるいは侵害されたロボットポリシーが生成される。
提案手法の有効性を実証し, ダウンストリームDRLポリシーにおけるエンド・ツー・エンドのバックドアと, VLA設定に対する概念実証を示す。
これらの知見は、より安全な世界モデルの研究と、ロボット学習サプライチェーンにおけるそれらの位置の再評価を必要とする。
関連論文リスト
- PlayWorld: Learning Robot World Models from Autonomous Play [8.710835027281465]
対話体験から高忠実度ビデオワールドシミュレータをトレーニングするための,シンプルでスケーラブルで完全自律的なパイプラインであるPlayWorldを紹介する。
PlayWorldは、教師なしのロボットのセルフプレイから完全に学習できる最初のシステムであり、自然にスケーラブルなデータ収集を可能にする。
実験により、PlayWorldは、人間が収集したデータに基づいてトレーニングされた世界モデルによって捉えられていないコンタクトリッチなインタラクションに対して、高品質で物理的に一貫した予測を生成することが示された。
論文 参考訳(メタデータ) (2026-03-09T23:58:07Z) - World4RL: Diffusion World Models for Policy Refinement with Reinforcement Learning for Robotic Manipulation [23.270985761700203]
我々は,ロボット操作のための事前学習ポリシーを洗練させるために,拡散型世界モデルを高忠実度シミュレータとして利用するフレームワーク World4RL を提案する。
World4RLは、高忠実な環境モデリングを提供し、一貫したポリシー改善を可能にし、模倣学習に比べて成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-09-23T14:38:15Z) - WorldGym: World Model as An Environment for Policy Evaluation [41.204900701616914]
WorldGymは、実環境のプロキシとして機能する自動回帰、アクション条件付きビデオ生成モデルである。
ポリシーはモンテカルロの世界モデルによるロールアウトを通じて評価され、視覚言語モデルが報酬を提供する。
We show that WorldGym can maintain relative policy rankings across different policy version, sizes, and training checkpoints。
論文 参考訳(メタデータ) (2025-05-31T15:51:56Z) - WorldEval: World Model as Real-World Robot Policies Evaluator [13.899692171641066]
重要な課題は、ロボットのアクションを忠実に反映した世界モデルから正確なポリシービデオを生成することだ。
本稿では,ビデオ生成モデルをロボットビデオを生成するための潜在動作に従う世界シミュレータに変換するための,シンプルで効果的な手法であるPolyse2Vecを提案する。
次に、実世界のロボットポリシーをオンラインで完全に評価するために設計された、自動パイプラインであるWorldEvalを紹介します。
論文 参考訳(メタデータ) (2025-05-25T07:41:39Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Don't Let Your Robot be Harmful: Responsible Robotic Manipulation via Safety-as-Policy [53.048430683355804]
ロボット操作における人間の指示の実行は、深刻な安全性のリスクにつながる可能性がある。
i) 安全リスクを含むシナリオを自動生成し、仮想的なインタラクションを行う世界モデルと、(ii) 反射による結果を予測するメンタルモデルを含む。
本研究は, 安全行政がリスクを回避し, 合成データセットと実世界の両方の実験において, 効率的にタスクを完了できることを実証する。
論文 参考訳(メタデータ) (2024-11-27T12:27:50Z) - Semantically Controllable Augmentations for Generalizable Robot Learning [40.89398799604755]
ロボット操作の現実に見えないシナリオへの一般化には、トレーニング中にさまざまなデータセットを公開する必要がある。
本稿では,意味制御可能な拡張とロボットデータセットの高速乗算のための生成的拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-02T05:25:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。