論文の概要: Reflective VLA: In-Context Action Consequences Make VLAs Generalize
- arxiv url: http://arxiv.org/abs/2606.25215v1
- Date: Tue, 23 Jun 2026 22:23:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.162856
- Title: Reflective VLA: In-Context Action Consequences Make VLAs Generalize
- Title(参考訳): Reflective VLA: VLAを一般化するインコンテキストアクション
- Authors: Qing Lian, Kent Yu, Lei Zhang,
- Abstract要約: 本稿では,観察・行動・結果三重項の文脈で各決定を条件付ける反射型VLAを提案する。
ブロックカジュアルマスクは、漏れのない並列マルチフレームトレーニングを可能にする。
標準の LIBERO と SimplerEnv-Bridge では、Reflective VLA は分配性能が強い。
- 参考スコア(独自算出の注目度): 9.050547865010175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most vision-language-action (VLA) models are reactive: they predict the next action from the current instruction and observation, implicitly assuming that the current observation fully specifies the action-relevant state. In embodied control, however, embodiment-specific factors such as camera-to-robot geometry, robot calibration, or systematic actuation bias are often hard to identify from a single observation. As a result, reactive policies cannot reliably disambiguate these factors in general, overfitting to training environments and generalizing poorly at deployment. We propose Reflective VLA, which conditions each decision on a context of observation-action-consequence triplets. Each triplet records not only what the robot observed and executed, but also how the scene changed afterward, exposing the deployment-specific mapping from actions to observed effects. Architecturally, Reflective VLA routes all observation modalities through the VLM under shared attention, so the action expert reasons directly over past triplets and the current observation. A block-causal mask enables parallel multi-frame training without leakage and supports KV-cached real-time inference. On standard LIBERO and SimplerEnv-Bridge, Reflective VLA preserves strong in-distribution performance. Under distribution shift on LIBERO-Plus and the harder LIBERO-Plus-Hard, it improves average success rate by 5.4 and 4.2 percentage points over a matched reactive baseline. Ablations with a matched history-only baseline further show that action consequences -- rather than additional context length alone -- are the key to cross-environment generalization. Project page: https://lianqing11.github.io/reflective-vla-page/
- Abstract(参考訳): 視覚-言語-アクション(VLA)モデルの多くは反応的であり、現在の指示と観察から次のアクションを予測し、現在の観察がアクション関連状態を完全に特定していると暗黙的に仮定する。
しかし、具体化制御では、カメラとロボットの幾何学、ロボットのキャリブレーション、系統的な動作バイアスといった、具体化固有の要素は、単一の観察から識別することがしばしば困難である。
結果として、リアクティブポリシは、これらの要因を全般的に確実に曖昧にすることができず、トレーニング環境に過度に適合し、デプロイ時に過度に一般化する。
本稿では,観察・行動・結果三重項の文脈で各決定を条件付ける反射型VLAを提案する。
それぞれのトリプルトは、ロボットが観察し実行しただけでなく、そのシーンがその後どのように変化したかを記録し、観察された効果に対するアクションからのデプロイメント固有のマッピングを露呈した。
建築面では、リフレクティブVLAはVLMを通してすべての観測モダリティを共通の注意を払って誘導するので、アクション専門家は過去の三重項と現在の観測を直接的に理由付けている。
ブロック因果マスクは、漏れのない並列マルチフレームトレーニングを可能にし、KVキャッシュリアルタイム推論をサポートする。
標準の LIBERO と SimplerEnv-Bridge では、Reflective VLA は分配性能が強い。
LIBERO-Plusの分布シフトと、より硬いLIBERO-Plus-Hardでは、一致した反応基線に対する平均成功率を5.4および4.2ポイント改善する。
マッチした履歴のみのベースラインによるアブレーションは、追加のコンテキスト長ではなく、アクションの結果が、クロス環境の一般化の鍵であることを示している。
プロジェクトページ: https://lianqing11.github.io/reflective-vla-page/
関連論文リスト
- LIBERO-Occ: Evaluating and Improving Vision-Language-Action Models under Scene-Induced Occlusion via Viewpoint Imagination [66.06027569507403]
textbfViewpoint Imagination (VIM) は、観測された証拠と想像された証拠の両方について、隠蔽された一次観測と条件の行動予測から補完的な視点を生成する。
VIMは、追加のカメラをデプロイ時に必要とせずに、タスクスイート、オクルージョンタイプ、重大度レベルの堅牢性を改善する。
論文 参考訳(メタデータ) (2026-06-09T13:39:49Z) - PHASER: Phase-Aware and Semantic Experience Replay for Vision-Language-Action Models [34.954808072081676]
本稿では,アーキテクチャに依存しない連続学習フレームワークPHASERを紹介する。
フェーズRは、すべてのサブスキルに等しいメモリサポートを保証するために、フェーズ中心のキャパシティアロケーションを使用する。
また、教師なし動作信号変化点検出とVLMに基づくセマンティック検証を組み合わせた軽量パイプラインであるAuto-PCを統合する。
論文 参考訳(メタデータ) (2026-06-02T13:04:15Z) - QuoVLA: Quotient Space for Vision-Language-Action Models [51.02329790939691]
VLA(Vision-Language-Action)モデルは、視覚的な観察と言語指示を連続的な行動にマッピングすることで、トレーニング済みのVLM潜伏者をロボット制御に適応させることが一般的である。
VLA の textitQuotient Theory は、事前訓練された VLM 潜伏剤は、アクションに十分ではないがアクションに十分であることを示している。
提案するQuoVLAは,事前学習されたVLMラテントを動作十分表現に圧縮する,VLAの商空間フレームワークである。
論文 参考訳(メタデータ) (2026-05-24T06:28:53Z) - LoopVLA: Learning Sufficiency in Recurrent Refinement for Vision-Language-Action Models [13.30873593845724]
LoopVLAは、表現の洗練、アクション予測、十分性推定を学習する、リカレントなVision-Language-Actionアーキテクチャである。
この結果から,LoopVLAはVLAポリシーの効率性向上のフロンティアを推し進め,パラメータを45%削減し,推論スループットを最大1.7倍向上させることを示した。
論文 参考訳(メタデータ) (2026-05-11T03:51:22Z) - Action Draft and Verify: A Self-Verifying Framework for Vision-Language-Action Model [31.013109374489442]
VLA(Vision-Language-Action)モデルは、最近、具体化されたタスク間で強力なパフォーマンスを示した。
本稿では,拡散行動専門家が複数の候補アクションチャンクをドラフトし,VLMが各候補を1つの前方パスに1つの難易度基準でスコア付けして1つを選択することを提案する。
マッチしたバックボーン、トレーニングデータ、アクション・チャンク長では、ADVは拡散ベースのベースラインよりも実世界の+4.3ポイント、+19.7ポイントで成功率を向上させる。
論文 参考訳(メタデータ) (2026-03-18T09:16:20Z) - Rethinking Visual-Language-Action Model Scaling: Alignment, Mixture, and Regularization [65.37179698521766]
VLA(Vision-Language-Action)モデルは、ジェネラリストロボットの制御を強く約束する。
標準的な「スケールデータ」レシピがロボット工学に翻訳されるかどうかはまだ不明だ。
本稿では,多様なロボットを対象とした事前学習のためのコアトレーニング選択を再考する,VLAスケーリングの体系的かつ制御された研究を提案する。
論文 参考訳(メタデータ) (2026-02-10T12:25:43Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - Counterfactual VLA: Self-Reflective Vision-Language-Action Model with Adaptive Reasoning [71.19675094463834]
この作業では、モデルが実行前に計画されたアクションを推論し、修正することを可能にする、自己修正型のVLAフレームワークである、Counterfactual VLAを導入している。
CF-VLAはまず、駆動意図を要約した時間分割メタアクションを生成し、その後、メタアクションと視覚コンテキストの両方で条件付けられた反実的推論を実行する。
大規模運転データセットの実験では、CF-VLAは軌道精度を最大17.6%向上し、安全基準を20.5%向上し、適応的思考を示す。
論文 参考訳(メタデータ) (2025-12-30T19:04:17Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。