論文の概要: Back to the Familiar Future: Failure Recovery for VLA Policies via Pre-Imagined Milestone Selection
- arxiv url: http://arxiv.org/abs/2606.09258v1
- Date: Mon, 08 Jun 2026 09:30:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.899049
- Title: Back to the Familiar Future: Failure Recovery for VLA Policies via Pre-Imagined Milestone Selection
- Title(参考訳): VLA政策の失敗回復 : 既往のマイルストーン選択をめざして
- Authors: Suyeon Shin, Juwon Kim, Hyeonbin Park, Hyunseo Kim, Hyundo Lee, Hyung-Sin Kim, Byoung-Tak Zhang,
- Abstract要約: 本稿では,視線駆動型視覚言語反応(VLA)政策の回復フレームワークであるBack to the Familiar Future (B2FF)を提案する。
実行前に、VLAはクリーンな初期観測に基づいて、よく知られた将来の状態のマイルストーンバンクを生成する。
リカバリ時に、リカバリ可認識セレクタは、このバンクからリカバリマイルストーンを選択し、それを固定視覚目標として強制する。
- 参考スコア(独自算出の注目度): 19.954434707400704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) policies can deviate from nominal trajectories during manipulation, even when tasks remain physically feasible. Recovering from these deviations is challenging, as they push the policy into unfamiliar state spaces where direct re-planning frequently destabilizes action sequences. We propose Back to the Familiar Future (B2FF), a recovery framework for foresight-driven VLAs that leverages future visual conditioning as a recovery interface. Before execution, the VLA generates a milestone bank of familiar future states conditioned on the clean initial observation. At recovery time, a recoverability-aware selector selects a recovery milestone from this bank and enforces it as a fixed visual goal. This enables the VLA to robustly map off-trajectory observations back to a familiar future. On failure-injected LIBERO, under controlled recovery timing aligned with the injected failure, B2FF increases the average success rate of a baseline VLA from 56.3% to 74.0%, demonstrating that pre-imagined milestones can guide recovery without fine-tuning the low-level action generator.
- Abstract(参考訳): 視覚言語アクション(VLA)ポリシーは、物理的に実現可能なタスクであっても、操作中の名目的軌道から逸脱することができる。
これらの逸脱から回復することは、ポリシーを不慣れな状態空間に押し込み、直接計画が頻繁にアクションシーケンスを不安定にするため、困難である。
我々は、将来の視覚的条件付けをリカバリインタフェースとして活用する、フォレスト駆動型VLAのリカバリフレームワークであるBack to the Familiar Future (B2FF)を提案する。
実行前に、VLAはクリーンな初期観測に基づいて、よく知られた将来の状態のマイルストーンバンクを生成する。
リカバリ時に、リカバリ可認識セレクタは、このバンクからリカバリマイルストーンを選択し、それを固定視覚目標として強制する。
これにより、VLAは軌道外の観測をよく知られた未来に忠実にマッピングすることができる。
故障注入されたLIBEROでは、制御された回復タイミングの下で、B2FFは、ベースラインVLAの平均成功率を56.3%から74.0%に引き上げる。
関連論文リスト
- ReCoVLA: VLM-Guided Reward Compilation for Failure Recovery in Vision-Language-Action Policies [16.305613129361593]
ヴィジュアル・ランゲージ・アクション(VLA)ポリシーは、言語条件の操作に強い先行性を提供するが、標的とするリカバリを必要とするオフ・ノミナル州では不安定なままである。
本稿では,既訓練のVLAポリシを凍結した状態に維持するリカバリフレームワークであるReCoVLAを提案する。
論文 参考訳(メタデータ) (2026-06-08T15:29:09Z) - RePO-VLA: Recovery-Driven Policy Optimization for Vision-Language-Action Models [90.39703013636868]
RePO-VLAは、リカバリ駆動のポリシー最適化フレームワークである。
成功、回復、失敗の軌跡に異なる役割を割り当てる。
対人的な成功は、平均で20%から75%、実世界の規模で80%まで上昇する。
論文 参考訳(メタデータ) (2026-05-10T08:24:05Z) - Learning from Mistakes: Post-Training for Driving VLA with Takeover Data [22.44026866655379]
TakeVLAは、2つの補完的なイノベーションを通じて欠点を克服する新しいVLAポストトレーニングフレームワークである。
まず,VLAが積極的に誤りから学ぶことができるような,占領前言語指導を導入する。
第2に,再建された乗っ取りシナリオで動作する強化微調整パラダイムであるScenario Dreamingを提案する。
論文 参考訳(メタデータ) (2026-03-16T08:33:48Z) - See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation [59.07792608884117]
本稿では,See, Plan, Rewind (SPR)について紹介する。
SPRは、現在の状態と今後のマイルストーンを見て、次の2Dウェイポイントに向けて軌道を計画し、障害時に回復可能な状態に戻すという、継続的なコアサイクルを通じて運用される。
SPRは、OpenVLA-OFTとUniVLAを上回る最小のパフォーマンス低下で最先端のロバスト性を達成する。
論文 参考訳(メタデータ) (2026-03-10T07:22:51Z) - Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - Recursive Belief Vision Language Action Models [0.0]
ロングホライゾン操作には永続的でアクション条件のある状態表現が必要である。
現在の視覚言語モデルは時間的および物理的推論に制限がある。
本稿では,自己教師型世界モデルで学習した信念中心アーキテクチャであるRB-VLAを紹介する。
論文 参考訳(メタデータ) (2026-02-24T08:02:16Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - CycleVLA: Proactive Self-Correcting Vision-Language-Action Models via Subtask Backtracking and Minimum Bayes Risk Decoding [60.06899554269808]
サイクロンVLA(CycleVLA)は、VLA(Vision-Language-Action Model)を積極的に自己補正するシステムである。
CycleVLAは、重要なサブタスク遷移ポイントにフラグを付けるプログレス対応のVLAを統合することで、これを実現する。
大規模な実験により、CycleVLAは、よく訓練されたVLAと訓練されていないVLAの両方のパフォーマンスを改善することが示された。
論文 参考訳(メタデータ) (2026-01-05T17:31:01Z) - Counterfactual VLA: Self-Reflective Vision-Language-Action Model with Adaptive Reasoning [71.19675094463834]
この作業では、モデルが実行前に計画されたアクションを推論し、修正することを可能にする、自己修正型のVLAフレームワークである、Counterfactual VLAを導入している。
CF-VLAはまず、駆動意図を要約した時間分割メタアクションを生成し、その後、メタアクションと視覚コンテキストの両方で条件付けられた反実的推論を実行する。
大規模運転データセットの実験では、CF-VLAは軌道精度を最大17.6%向上し、安全基準を20.5%向上し、適応的思考を示す。
論文 参考訳(メタデータ) (2025-12-30T19:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。