論文の概要: Learning What to Say to Your VLA: Mostly Harmless Vision Language Action Model Steering
- arxiv url: http://arxiv.org/abs/2606.12299v1
- Date: Wed, 10 Jun 2026 16:34:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.56782
- Title: Learning What to Say to Your VLA: Mostly Harmless Vision Language Action Model Steering
- Title(参考訳): VLAに何を言うべきかを学ぶ:最もハームレスな視覚言語アクションモデルステアリング
- Authors: Hyun Joe Jeong, Gokul Swamy, Andrea Bajcsy,
- Abstract要約: VLA(Vision-Language-Action)モデルは、ロボット制御のための自然言語インタフェースを提供する。
クローズループVLAタスク性能を改善するための言語シーケンスを対話的に検索するフレームワークを提案する。
私たちは、いつ言語ステアリングがパフォーマンスを改善するかを予測する改善ヘッドを学びます。
- 参考スコア(独自算出の注目度): 19.25748772628753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models provide a natural language interface to robot control, but the mapping from language to behavior is often brittle and unintuitive: semantically similar instructions can induce drastically different behaviors, while some capabilities may not be elicitable through prompting alone. As a result, both human instructions and zero-shot language models can fail to reliably steer VLAs toward successful task execution. In this work, we propose a framework that interactively searches for language sequences that improve closed-loop VLA task performance, distills these sequences into a test-time language feedback policy (LFP), and learns an improvement head that predicts when language steering will improve performance. We conformalize this improvement head to prevent harmful steering interventions, where the LFP decreases task performance relative to the original instruction on out-of-distribution scenarios. Crucially, our approach operates on arbitrary frozen pre-trained VLAs, requiring neither access to the original training distribution nor fine-tuning of the underlying model. On seen environments, our conformalized LFP improves base VLA performance by 24.7% in simulation and 65.0% in hardware. On visual and semantic perturbations, our conformalized LFP has strong harmlessness guarantees, and produces recovery behaviors not observed with open-loop prompting.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、ロボット制御に自然言語インタフェースを提供するが、言語から行動へのマッピングは、しばしば不安定で直感的である。
その結果、ヒューマンインストラクションとゼロショット言語モデルの両方が、VLAをタスク実行の成功に向けて確実に操縦することができない。
本研究では,クローズドループVLAタスク性能を改善するための言語シーケンスを対話的に検索し,これらのシーケンスを試験時間言語フィードバックポリシー(LFP)に蒸留し,言語ステアリングがいつパフォーマンスを向上させるかを予測する改善ヘッドを学習するフレームワークを提案する。
我々は,この改善ヘッドに適合して有害なステアリング介入を防止し,LFPは配布外シナリオにおける元の命令と比較してタスク性能を低下させる。
重要なことは、我々のアプローチは任意の凍結事前学習VLAで動作し、元のトレーニング分布へのアクセスも基礎モデルの微調整も必要としない。
表示環境において、コンフォーマル化されたLFPは、ベースVLA性能を24.7%向上し、ハードウェアは65.0%向上した。
視覚的および意味的な摂動について,我々のコンフォーマル化されたLFPは強い無害性を保証するとともに,オープンループプロンプトで観測されない回復挙動を生じさせる。
関連論文リスト
- QuoVLA: Quotient Space for Vision-Language-Action Models [51.02329790939691]
VLA(Vision-Language-Action)モデルは、視覚的な観察と言語指示を連続的な行動にマッピングすることで、トレーニング済みのVLM潜伏者をロボット制御に適応させることが一般的である。
VLA の textitQuotient Theory は、事前訓練された VLM 潜伏剤は、アクションに十分ではないがアクションに十分であることを示している。
提案するQuoVLAは,事前学習されたVLMラテントを動作十分表現に圧縮する,VLAの商空間フレームワークである。
論文 参考訳(メタデータ) (2026-05-24T06:28:53Z) - RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models [58.83401587988675]
RoboAlignは視覚言語アクションモデル(VLA)を訓練し、マルチモーダル理解を低レベルのアクションに変換する。
我々のキーとなる考え方は、ゼロショット自然言語推論を用いてアクショントークンをサンプリングし、この推論を強化学習(RL)を用いて洗練し、アクション精度を向上させることである。
RoboAlignは、それぞれLIBERO、CALVIN、現実世界の環境におけるSFTベースラインよりも17.5%、18.9%、106.6%の性能向上を実現している。
論文 参考訳(メタデータ) (2026-03-22T17:57:55Z) - Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration [24.562540060971273]
VLA(Vision-Language-Action)モデルにより、ロボットは自然言語命令から直接操作タスクを実行することができる。
言語命令がシーンに矛盾する場合でも、VLAポリシーが視覚的に妥当な動作を実行し続ける重要な障害モードを明らかにする。
Instruction-Guided Attention Recalibration (IGAR) を提案する。
論文 参考訳(メタデータ) (2026-03-06T08:01:36Z) - When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs [31.92520697946991]
VLA(Vision-Language-Action Model)は、ロボット制御における言語命令の基盤となることを約束するが、実際には言語に忠実に従わないことが多い。
反ファクトの失敗は、最先端のVLAで発見されていないことが示される。
本稿では,単純な2分岐推論方式であるCAGを提案する。
論文 参考訳(メタデータ) (2026-02-19T18:59:20Z) - VLS: Steering Pretrained Robot Policies via Vision-Language Models [31.189909515514668]
Vision-Language Steering (VLS)は、凍結生成ロボットポリシーの推論時間適応のためのトレーニング不要フレームワークである。
VLSは、適応を推論時間制御問題として扱い、事前訓練された拡散またはフローマッチングポリシーのサンプリングプロセスを操る。
論文 参考訳(メタデータ) (2026-02-03T19:50:16Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning [61.38273866396522]
ビジョン・ランゲージ・アクションモデルが汎用ロボット学習の強力なパラダイムとして登場した。
現在の手法は、シミュレーションや物理世界の展開に挑戦するには相変わらず適していない。
本稿では,VLA フレームワークのテスト時間強化学習について紹介する。
論文 参考訳(メタデータ) (2026-01-11T01:51:30Z) - Learning Affordances at Inference-Time for Vision-Language-Action Models [50.93181349331096]
ロボット工学において、VLA(Vision-Language-Action Model)は複雑な制御タスクを解くための有望な道を提供する。
本稿では,VLAの低レベルポリシーを過去の経験を条件とした高レベルVLMに接続するLITEN(Learning from Inference-Time Execution)を紹介する。
提案手法は,低レベルVLAの計画の生成と実行を行う推論フェーズと,その結果を反映した評価フェーズとを反復する。
論文 参考訳(メタデータ) (2025-10-22T16:43:29Z) - Do What You Say: Steering Vision-Language-Action Models via Runtime Reasoning-Action Alignment Verification [17.948161564138033]
Reasoning Vision Language Action (VLA)モデルは、低レベルアクションの前にステップバイステップのテキストプランを生成することで、ロボットによる命令追従を改善する。
しかし、正しいテキストプランであっても、生成したアクションは計画の意図した結果、特にアウト・オブ・ディストリビューションのシナリオを見逃す可能性がある。
我々は、この現象をCoT忠実性の欠如として定式化し、推論・アクションアライメントのためのトレーニング不要な実行時ポリシーステアリング手法を導入する。
論文 参考訳(メタデータ) (2025-10-18T00:38:45Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。