論文の概要: Uncertainty Quantification for Flow-Based Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2606.18043v1
- Date: Tue, 16 Jun 2026 15:19:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.508679
- Title: Uncertainty Quantification for Flow-Based Vision-Language-Action Models
- Title(参考訳): フローベースビジョン・ランゲージ・アクションモデルの不確かさの定量化
- Authors: Ralf Römer, Maximilian Seeliger, Saida Liu, Ben Sturgis, Marco Bagatella, Daniel Marta, Andreas Krause, Angela P. Schoellig,
- Abstract要約: 視覚言語アクションモデル(VLA)は、視覚言語バックボーンと、大規模ロボットデータセットのフローマッチングによってトレーニングされた表現力豊かな生成アクションヘッドを組み合わせる。
ロボット操作における強い経験的性能にもかかわらず、VLAは予測の信頼性を定量化し、動作が信頼できない可能性があることを検知するメカニズムを欠いている。
本稿では,不確実性誘導型アクティブ微調整のためのフレームワークであるSAVEを提案する。
- 参考スコア(独自算出の注目度): 33.28454469934064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action models (VLAs) combine vision-language backbones with expressive generative action heads trained via flow matching on large-scale robotic datasets. Despite their strong empirical performance in robotic manipulation, VLAs lack mechanisms to quantify confidence in their predictions and to detect when their actions may be unreliable. This presents a critical limitation for real-world deployment in non-stationary environments, where models inevitably encounter scenarios outside their pretraining distribution and may fail without warning. To address this, we derive an efficient method for quantifying epistemic uncertainty in flow-matching models by leveraging velocity-field disagreement (VFD) across a small ensemble. We successfully use this uncertainty estimate for failure detection during deployment and active fine-tuning of flow-based VLAs. To this end, we propose SAVE, a framework for uncertainty-guided active multitask fine-tuning that reduces the number of costly expert demonstrations required to adapt VLAs to new tasks. Through extensive experiments on the LIBERO benchmark, we demonstrate that VFD yields better-calibrated uncertainty estimates predictive of downstream performance, that VFD achieves strong performance in detecting failures, and that uncertainty-guided data acquisition with SAVE requires at least 22% fewer samples than baselines. In summary, our work shows that quantifying epistemic uncertainty in flow-based VLAs improves both failure awareness and adaptation. Project website: tum-lsy.github.io/uq_vla/.
- Abstract(参考訳): 視覚言語アクションモデル(VLA)は、視覚言語バックボーンと、大規模ロボットデータセットのフローマッチングによってトレーニングされた表現力豊かな生成アクションヘッドを組み合わせる。
ロボット操作における強い経験的性能にもかかわらず、VLAは予測の信頼性を定量化し、動作が信頼できない可能性があることを検知するメカニズムを欠いている。
これは、非定常環境における現実のデプロイメントに重要な制限を与え、モデルが事前トレーニングされたディストリビューションの外でシナリオに遭遇し、警告なしで失敗する可能性がある。
そこで本研究では,小アンサンブル間の速度場不一致(VFD)を利用して,フローマッチングモデルにおける疫学的不確実性を定量化する手法を提案する。
我々は、この不確実性推定を、フローベースVLAの展開中の故障検出とアクティブ微調整にうまく利用した。
この目的のために,不確実性誘導型アクティブマルチタスク微調整のためのフレームワークであるSAVEを提案する。
LIBERO ベンチマークの広範な実験により,VFD は下流性能の予測精度を向上し,VFD は故障検出において高い性能を達成し,SAVE による不確実性誘導データ取得はベースラインよりも少なくとも22%少ないサンプルを必要とすることを示した。
まとめると、フローベースVLAにおける疫学的不確実性の定量化は、障害認識と適応の両方を改善する。
プロジェクトウェブサイト:tum-lsy.github.io/uq_vla/
関連論文リスト
- VLAConf: Calibrated Task-Success Confidence for Vision-Language-Action Models [7.329348634749636]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのための一級識別信頼フレームワークであるVLAConfを提案する。
凍結事前訓練されたVLA内部表現を利用することで、VLAConfは1回の前方通過でステップワイズ異常スコアを直接推定する。
LIBEROベンチマークの実験により、VLAConfはポストホックキャリブレーションのために構築された信頼信号の品質を大幅に向上することが示された。
論文 参考訳(メタデータ) (2026-05-28T08:42:12Z) - Shifting Uncertainty to Critical Moments: Towards Reliable Uncertainty Quantification for VLA Model [10.781664119473966]
本稿では,ロールアウトの成功と失敗を予測するための統一的不確実性定量化手法を提案する。
本手法は, 故障予測精度を大幅に向上し, 故障検出のための信頼性の高い信号を得る。
論文 参考訳(メタデータ) (2026-03-18T22:52:03Z) - Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models [7.802379200026965]
認識状態の複雑さに基づいてVLA実行を動的にルーティングする適応型フレームワークを提案する。
我々のアプローチは、VLAの視覚言語バックボーンを、パラメトリックおよび非パラメトリック推定器のアンサンブルに潜伏埋め込みを投影することにより、アクティブな検出ツールに変換する。
論文 参考訳(メタデータ) (2026-03-05T13:14:41Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Contamination Detection for VLMs using Multi-Modal Semantic Perturbation [73.76465227729818]
オープンソースのVision-Language Models (VLM)は、ベンチマークタスクで最先端のパフォーマンスを達成した。
プレトレーニングコーパスは,テストセットリークによるパフォーマンスの低下という,実践者とユーザ双方にとって重要な懸念を提起する。
既存の検出手法が不整合性を示すか,不整合性を示すかを示す。
マルチモーダルなセマンティック摂動に基づく,新しい簡易かつ効果的な検出法を提案する。
論文 参考訳(メタデータ) (2025-11-05T18:59:52Z) - Post-hoc Probabilistic Vision-Language Models [54.05237186168399]
視覚言語モデル(VLM)は、分類、検索、生成タスクにおいて顕著な成功を収めている。
追加トレーニングを必要としないVLMにおけるポストホック不確実性評価を提案する。
この結果から,大規模モデルの安全性クリティカルな応用が期待できることがわかった。
論文 参考訳(メタデータ) (2024-12-08T18:16:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。