論文の概要: Attacking the Trusted Imagination: Oracle-Level Integrity Attacks on Imagine-then-Act World Models
- arxiv url: http://arxiv.org/abs/2606.22966v1
- Date: Mon, 22 Jun 2026 07:45:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 03:10:41.718345
- Title: Attacking the Trusted Imagination: Oracle-Level Integrity Attacks on Imagine-then-Act World Models
- Title(参考訳): 信頼されたイマジネーションを攻撃する:Oracle-LevelのImaginationがImagined-then-Act World Modelsを攻撃
- Authors: Linghan Chen, Kaiyan Ji, Minyu Guo,
- Abstract要約: ワールドアクションモデル(WAM)は、まず短い未来を潜在軌道zとして想像し、そこでアクションを条件付けする。
安全ゲート、視覚モデル予測制御(MPC)プランナーのような下流のオラクルは、zを将来の予測として消費する。
想像力を損なうのは、自然未来多様体から z を分解するだけでよいからである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many recent vision-language-action (VLA) policies adopt an imagine-then-act design. A world-action model (WAM) first imagines a short future as a latent trajectory z~, on which the action is then conditioned. We identify this trusted imagination, rather than the reactive policy, as the exposed attack surface. A downstream oracle, such as a safety gate, a visual model-predictive-control (MPC) planner, or an imagine-then-check verifier, consumes z~ as a prediction of the future. The robustness of the policy therefore does not entail the robustness of systems that rely on the WAM. The underlying phenomenon is an asymmetry. Corrupting the imagination is easy, since it requires only displacing z~ from its natural-future manifold. Steering it precisely is hard, since it must reach a specified on-manifold target. We adopt a capability-based threat model with an L-infinity-bounded observation perturbation. The attacker applies projected gradient descent through the fully differentiable observation-to-imagination map. The same off-manifold property motivates a parameter-free denoiser detector. We evaluate three targets: RynnVLA-002, LingBot-VA, and LaDi-WM. Untargeted corruption is roughly 60x stronger than random and is detected at AUC 1.0. Targeted control remains bounded. An adaptive attacker evades detection only by forgoing corruption. The reactive policy remains robust to corrupted imagination. A native imagination-driven MPC, however, exhibits the first adversary-specific task failure (at epsilon=0.01, success 0.70 versus 0.05; Fisher p < 10^-4).
- Abstract(参考訳): 近年のビジョン言語アクション (VLA) 政策では、イマジネーション・ザ・アクティヴ・デザインを採用している。
ワールドアクションモデル(WAM)は、まず、短い未来を潜在軌道z~として想像し、そこでアクションを条件付けする。
我々は、この信頼された想像力は、反応ポリシーではなく、露出した攻撃面として認識する。
安全ゲート、視覚モデル予測制御(MPC)プランナー、想像検証検証器などの下流オラクルは、未来予測としてz~を消費する。
したがって、政策の堅牢性は、WAMに依存しているシステムの堅牢性を必要としない。
基礎となる現象は非対称性である。
想像力を損なうのは簡単であり、それは自然未来多様体から z~ を分解するだけでよいからである。
特定の on-manifold ターゲットに到達しなければならないため、正確なステアリングは難しい。
L-infinity-bounded observed perturbation を持つ能力に基づく脅威モデルを採用する。
攻撃者は、完全に微分可能な観察から想像へのマップを通して、投影された勾配降下を適用する。
同じオフマニフォールド特性はパラメータフリーなデノイザー検出器を動機付けている。
我々はRynnVLA-002, LingBot-VA, LaDi-WMの3つの目標を評価する。
標的外破壊はランダムよりも約60倍強く、AUC 1.0で検出される。
制御対象は限定されている。
適応攻撃者は、汚職を防ぎ、検出を回避できる。
反応政策はいまだに腐敗した想像力に固執している。
しかし、ネイティブ・イマジネーション駆動のMPCは、最初の敵固有のタスク障害を示す(epsilon=0.01、成功率0.70対0.05、Fisher p < 10^-4)。
関連論文リスト
- Test-time Adversarial Takeover: A Real-time Hijacking Interface against Robotic Diffusion Policies [11.428738769530847]
本研究では,攻撃者が凍結したロボットポリシーに対してリアルタイムの操舵インターフェースを得る,より強力な脅威であるテストタイム・アダベリアル・テイクオーバー(TAKO)について検討する。
本研究は, 自然目標ベースライン, ターゲット・ポリティィ・マッチングは, 被害者の方針が, 配当対象シフトを確実に監督できないため, 失敗することを示す。
人間のオペレータは、評価された設定ごとに攻撃者が定義した目的に対して100%の乗っ取り成功を達成する。
論文 参考訳(メタデータ) (2026-06-09T03:31:09Z) - Assimilation Matters: Model-level Backdoor Detection in Vision-Language Pretrained Models [71.44858461725893]
信頼できない第三者によって微調整されたモデルを考えると、モデルがバックドアで注入されたかどうかが重要で難しい問題である。
既存の検出方法は通常、トレーニングデータセット、バックドアトリガー、ターゲットの事前知識に依存する。
このような事前知識を伴わずに動作する新しいモデルレベルの検出フレームワークであるAssimilation Matters in DETection (AMDET)を紹介する。
論文 参考訳(メタデータ) (2025-11-29T06:20:00Z) - Invisible Triggers, Visible Threats! Road-Style Adversarial Creation Attack for Visual 3D Detection in Autonomous Driving [8.363511344553562]
自律走行シナリオにおける現実的な敵攻撃について検討する。
本稿では,道路スタイルの多様なポスターを作成するためのAdvRoadを提案する。
我々は,攻撃効果を最大化するために,ロード・スタイル・アドバーサリー・ジェネレーションとシナリオ・アソシエイト・アダプティブ・アダプティブと呼ばれる2段階のアプローチを採用する。
論文 参考訳(メタデータ) (2025-11-11T09:17:18Z) - IAG: Input-aware Backdoor Attack on VLMs for Visual Grounding [7.59817316342973]
視覚言語モデルの接地動作を制御するための新しい入力対応バックドアアタック手法 IAG を提案する。
本稿では,攻撃対象の表現の意味情報を元の画像に埋め込む適応型トリガ生成器を提案する。
IAGは理論的、経験的に評価され、その実現可能性と有効性を示す。
論文 参考訳(メタデータ) (2025-08-13T03:22:19Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z) - Evaluating the Robustness of Semantic Segmentation for Autonomous
Driving against Real-World Adversarial Patch Attacks [62.87459235819762]
自動運転車のような現実のシナリオでは、現実の敵例(RWAE)にもっと注意を払わなければならない。
本稿では,デジタルおよび実世界の敵対パッチの効果を検証し,一般的なSSモデルのロバスト性を詳細に評価する。
論文 参考訳(メタデータ) (2021-08-13T11:49:09Z) - Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。
この相違は, 目的の強調安定性によるものであることを示す。
大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文 参考訳(メタデータ) (2020-06-27T13:52:07Z) - Perceptual Adversarial Robustness: Defense Against Unseen Threat Models [58.47179090632039]
敵対的堅牢性の鍵となる課題は、人間の知覚を正確に数学的に特徴づけることの欠如である。
ニューラル・パーセプチュアル・脅威モデルの下で、我々は新しいパーセプチュアル・アタックとディフェンスを開発する。
NPTMは非常に広範であるため、知覚的攻撃に対する知覚的適応訓練(PAT)は、他の多くの種類の敵対的攻撃に対して堅牢性を与える。
論文 参考訳(メタデータ) (2020-06-22T22:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。