論文の概要: Trajectory-Level Redirection Attacks on Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2606.12978v2
- Date: Sat, 13 Jun 2026 05:51:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 13:45:31.198052
- Title: Trajectory-Level Redirection Attacks on Vision-Language-Action Models
- Title(参考訳): 視覚・言語・行動モデルに基づく軌道レベルリダイレクトアタック
- Authors: Gokul Puthumanaillam, Vardhan Dongre, Pranay Thangeda, Hooshang Nayyeri, Dilek Hakkani-Tür, Melkior Ornik,
- Abstract要約: 視覚言語アクション(VLA)ポリシーは、自然言語をクローズドループロボット制御にもたらすことで、ロボットはテキスト命令から直接操作タスクを実行することができる。
本研究は,低レベルなアクションを対象とする場合や,変化するイメージをまたいだアクションを継続させる場合の逆方向のプロンプトについて検討する。
実験により、ほぼ良性な急激な摂動がVLAロールアウトを攻撃者が特定したターゲットにリダイレクトできることが示されている。
- 参考スコア(独自算出の注目度): 8.83087913765963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language-action (VLA) policies bring natural language into closed-loop robot control, enabling robots to execute manipulation tasks directly from text instructions. The same interface gives text a recurring role in control because the prompt is reused at every replanning step, and each prompt-conditioned action changes the future observations on which the policy acts. Existing VLA attacks study adversarial prompts that elicit targeted low-level actions or make such actions persist across changing images. We identify a stronger trajectory-level failure mode: a prompt that still $\textit{appears}$ to specify the intended task but redirects the final physical outcome. We mathematically formalize this setting as $\textit{command-preserving trajectory redirection}$, a prompt-only threat model in which the attacker chooses one prompt before the episode, all policy and environment components remain fixed, and the prompt must stay close to the benign instruction while omitting target words and correction language. To find such prompts, we introduce an on-policy prompt search method that uses rollouts to discover perturbations whose closed-loop behavior tracks a target task while satisfying the command-preserving constraints. Experiments in simulation and on hardware show that near-benign prompt perturbations can redirect VLA rollouts to attacker-specified targets. These results expose a trajectory-level vulnerability in VLA instruction grounding: text that appears to preserve the intended command can still give an adversary control over the robot's final physical outcome. Project website: https://vla-redirection-attack.github.io/
- Abstract(参考訳): 視覚言語アクション(VLA)ポリシーは、自然言語をクローズドループロボット制御にもたらすことで、ロボットはテキスト命令から直接操作タスクを実行することができる。
同じインターフェースは、プロンプトが計画の各ステップで再利用され、各プロンプト条件付きアクションが、ポリシーの動作する将来の観察を変更するため、テキストに制御における繰り返しの役割を与える。
既存のVLA攻撃は、敵が標的とする低レベルなアクションを誘発するか、あるいは変化した画像全体にわたってそのようなアクションを持続させることを示唆する。
このプロンプトは、意図したタスクを指定するために$\textit{appears}$を指定しますが、最終的な物理的な結果をリダイレクトします。
我々は、この設定を$\textit{command-serving trajectory redirection}$として数学的に定式化する。これは、攻撃者がエピソードの前に1つのプロンプトを選択し、すべてのポリシーと環境コンポーネントが固定され、プロンプトはターゲットの単語と修正言語を省略しながら良心的な命令に近づかなければならない、プロンプトのみの脅威モデルである。
このようなプロンプトを見つけるために、ロールアウトを利用したオンラインプロンプト検索手法を導入し、コマンド保存制約を満たすとともに、ループの閉動作が目標タスクをトラックする摂動を検出する。
シミュレーションおよびハードウェア上での実験では、ほぼ良性な急激な摂動がVLAロールアウトを攻撃者が特定したターゲットにリダイレクトできることが示されている。
これらの結果は、VLA命令のグラウンディングにおいて、軌跡レベルの脆弱性を露呈している: 意図されたコマンドを保存するように見えるテキストは、ロボットの最終的な物理的結果に対して敵意の制御を与えることができる。
プロジェクトウェブサイト: https://vla-redirection- attack.github.io/
関連論文リスト
- Test-time Adversarial Takeover: A Real-time Hijacking Interface against Robotic Diffusion Policies [11.428738769530847]
本研究では,攻撃者が凍結したロボットポリシーに対してリアルタイムの操舵インターフェースを得る,より強力な脅威であるテストタイム・アダベリアル・テイクオーバー(TAKO)について検討する。
本研究は, 自然目標ベースライン, ターゲット・ポリティィ・マッチングは, 被害者の方針が, 配当対象シフトを確実に監督できないため, 失敗することを示す。
人間のオペレータは、評価された設定ごとに攻撃者が定義した目的に対して100%の乗っ取り成功を達成する。
論文 参考訳(メタデータ) (2026-06-09T03:31:09Z) - A Physical Agentic Loop for Language-Guided Grasping with Execution-State Monitoring [5.437966695589128]
我々は、接地された実行状態上で動作する有界な実施エージェントとして言語誘導の把握を再構築する。
未修正の学習操作プリミティブをラップする物理エージェントループを導入する。
眼内カメラD405を用いた移動マニピュレータのループを検証した。
論文 参考訳(メタデータ) (2026-04-08T08:01:35Z) - TAG: Target-Agnostic Guidance for Stable Object-Centric Inference in Vision-Language-Action Models [59.13964209628383]
VLA(Vision-Language-Action)ポリシーは、言語指示や視覚的な観察をロボット行動にマッピングする上で大きな進歩を見せている。
本稿では,VLA政策における乱れや外見に起因したバイアスを明示的に軽減する単純な推論時ガイダンス機構であるTAG(Target-Agnostic Guidance)を提案する。
我々は, LIBERO, LIBERO-Plus, VLABenchなどの標準操作ベンチマーク上でTAGを評価し, クラッタ下での堅牢性を一貫して改善し, ニアミスや不正なオブジェクト実行を減らす。
論文 参考訳(メタデータ) (2026-03-25T17:56:32Z) - RoboOmni: Proactive Robot Manipulation in Omni-modal Context [165.09049429566238]
我々は,音声対話や環境音,視覚的手がかりから意図を導出する,クロスモーダルな文脈指示を導入する。
目的認識,インタラクション確認,アクション実行を統一する,エンドツーエンドのOmni-Modal LLMに基づくフレームワークであるRoboOmniを提案する。
シミュレーションと実世界の設定の実験では、Robo OmniはテキストベースとASRベースのベースラインを越え、成功率、推論速度、意図認識、積極的に支援している。
論文 参考訳(メタデータ) (2025-10-27T18:49:03Z) - Goal-oriented Backdoor Attack against Vision-Language-Action Models via Physical Objects [18.741802167656903]
視覚言語アクション(VLA)モデルのためのゴール指向バックドアアタック(GoBA)を提案する。
GoBAは、物理的トリガーの存在下で、事前に定義された、目標指向のアクションを実行する。
実験の結果、GOBAは被害者のVLAが97%の入力でバックドアゴールを達成できることを示した。
論文 参考訳(メタデータ) (2025-10-10T11:09:36Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - CAPE: Corrective Actions from Precondition Errors using Large Language
Models [8.547766794082184]
本研究では,計画中の条件誤差を解決するための修正行動を提案する新しい手法を提案する。
CAPEは、アクション前提条件からの少数ショット推論を活用することにより、生成されたプランの品質を改善する。
そこでCAPEはSayCanに比べて76.49%の精度でタスク計画の正しさを向上する。
論文 参考訳(メタデータ) (2022-11-17T23:14:51Z) - ADAPT: Vision-Language Navigation with Modality-Aligned Action Prompts [92.92047324641622]
視覚言語ナビゲーション(VLN)のためのmodAlity-aligneD Action PrompT(ADAPT)を提案する。
ADAPTは、アクションレベルのモダリティアライメントの明示的な学習を可能にするために、アクションプロンプトをVLNエージェントに提供する。
R2RとRxRの両方の実験結果は、最先端手法よりもADAPTの方が優れていることを示している。
論文 参考訳(メタデータ) (2022-05-31T02:41:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。