論文の概要: ProbeAct: Probe-Guided Training-Free Failure Recovery in Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2606.09740v1
- Date: Mon, 08 Jun 2026 17:04:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.579131
- Title: ProbeAct: Probe-Guided Training-Free Failure Recovery in Vision-Language-Action Models
- Title(参考訳): ProbeAct:Vision-Language-Action Modelにおける Probe-Guided Training-free failure recovery
- Authors: Fan Zhang, Seongbin Park, Baharan Mirzasoleiman, Shariar Talebi, Nader Sehatbakhsh,
- Abstract要約: PROBEACTはトレーニング不要のランタイム介入フレーム6である。
プレ-7の訓練されたVLAポリシーの把握と配置の失敗を検知し、回復する。
- 参考スコア(独自算出の注目度): 23.3892541362594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models demonstrate strong perfor-1 mance on language-conditioned robotic manipulation within their training dis-2 tribution, yet their generalization capabilities remain fundamentally limited. They3 lack the robustness required to handle perturbations, frequently failing when con-4 fronted with lighting changes, altered camera viewpoints, or small initial-state5 variations. We propose PROBEACT, a training-free runtime intervention frame-6 work that detects and recovers from grasping and placement failures in pre-7 trained VLA policies without modifying their weights or requiring additional8 demonstrations. PROBEACT combines three components: (i) a lightweight multi-9 target hidden-state probe that predicts the 3D positions of task-relevant objects10 from intermediate VLA features, with Hungarian-matched identity tracking for11 multi-object scenes; (ii) an object-agnostic kinematic state machine that detects12 grasp, transport, and placement failures using only gripper-internal signals and13 end-effector kinematics; and (iii) a hierarchical Control Barrier Function (CBF)14 filter that encodes repeated-failure locations as soft safe-set constraints, mini-15 mally correcting VLA actions while preserving baseline behavior. As a plug-and-16 play, training-free intervention loop, PROBEACT is orthogonal to existing train-17 ing pipelines. Evaluated on the LIBERO-plus benchmark, our framework acts as18 a universal safety net, improving the success rate of the OpenVLA-OFT model19 from 69.6% to 74.1%, while demonstrating broad applicability to both base and20 fine-tuned VLA policies.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルでは、訓練用dis-2属性内の言語条件のロボット操作において強力なPerfor-1のマンスを示すが、その一般化能力は基本的に制限されている。
それら3は摂動に対処するために必要な頑丈さを欠き、コン-4が点灯の変更、カメラの視点の変更、または小さな初期状態5のバリエーションによってしばしば失敗する。
ProBEACTは、トレーニング不要のランタイム介入フレーム6で、トレーニング済みVLAポリシーの把握と配置の失敗を、重みを変更したり、追加の8つのデモを必要とせずに検出し、回復する。
PROBEACTは3つのコンポーネントを組み合わせる。
i) タスク関連オブジェクト10の3次元位置を中間VLA特徴から予測する軽量なマルチ9ターゲット隠れ状態プローブ。
二 グリッパー内部信号と13個のエンドエフェクタキネマティクスのみを用いて、12個の握力、輸送及び配置障害を検出する物体非依存キネマティクス状態機械
3) ソフトセーフセット制約として繰り返し障害箇所を符号化する階層型制御バリア関数(CBF)14、ベースライン動作を保ちながらVLA動作を誤補正するmini-15。
プラグ・アンド・16のプレイとして、トレーニング不要の介入ループである PROBEACT は、既存の17系統のパイプラインと直交する。
LIBERO+ベンチマークに基づいて、我々のフレームワークは18のユニバーサルセーフティネットとして機能し、OpenVLA-OFTモデル19の成功率を69.6%から74.1%に改善し、ベースと20の微調整VLAポリシーにも広く適用可能であることを示した。
関連論文リスト
- Your Model Already Knows: Attention-Guided Safety Filter for Vision-Language-Action Models [25.34659221262947]
VLA(Vision-Language-Action)モデルでは、さまざまなロボット操作タスクにおいて、エンドツーエンドのパフォーマンスが著しく向上している。
既存の安全フィルタは、障害物とその位置を特定するために視覚言語モデル(VLM)をクエリすることで、この問題を回避している。
VLAモデル内の少数の注意点が、ポリシーがアプローチしようとする対象を確実に位置づけすることを発見した。
論文 参考訳(メタデータ) (2026-06-08T17:11:16Z) - GEAR-VLA: Learning Geometry-Aware Action Representations for Generalizable Robotic Manipulation [49.16739604572808]
VLA(Vision-Language-Action)モデルは、強力なベンチマークパフォーマンスを実現するが、目に見えないオブジェクトによる現実世界のデプロイに苦労する。
これは、統合幾何認識の操作表現が欠如していることに起因していると我々は主張する。
一般化可能なロボット操作のための統合幾何認識行動表現を学習するためのVLAフレームワークであるGEAR-VLAを提案する。
論文 参考訳(メタデータ) (2026-06-07T09:23:16Z) - Mitigating Hallucination in Vision-Language Models through Barrier-Regulated Adaptive Closed-form Steering [2.497926557563177]
大型視覚言語モデル(LVLM)は入力画像に存在しない物体を幻覚させる。
既存の推論時間緩和手法は、世代を通してロジットや隠れた状態を修正している。
彼らは明確な接地目標を欠き、モデルが既に十分に接地されている場合でも介入し、接地失敗の深刻さに適応しない固定された補正強度を使用する。
本稿では,バリアレス適応型クローズドフォームステアリングにより,これらの問題に対処する,トレーニングフリーなステアリングフレームワークであるBRACSを提案する。
論文 参考訳(メタデータ) (2026-05-28T13:07:01Z) - Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。
我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文 参考訳(メタデータ) (2026-02-23T11:00:08Z) - On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations [52.1029745126386]
視覚-言語-アクション(VLA)モデルでは、現実世界の摂動に対する堅牢性は、デプロイに不可欠である。
本稿では,VLA入力と出力の摂動に対するロバストVLAを提案する。
LIBEROの実験では、ロバストVLAは、pi0バックボーンで12.6%、OpenVLAバックボーンで10.4%のベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2025-09-26T14:42:23Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy [10.596344084789434]
VLA(Vision-Language-Action)モデルは、現実世界のロボット操作において大きな可能性を示している。
これらのモデルを教師付き学習で微調整することで、制限された一貫性のないデモのために堅牢なパフォーマンスを達成することができる。
我々は,オフラインとオンラインのファインチューニングで構成されるConRFTという,VLAモデルのための強化されたファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-08T05:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。