Fugu-MT 論文翻訳(概要): Perturbation-Based Uncertainty for Failure Detection in Vision-Language-Action Models

論文の概要: Perturbation-Based Uncertainty for Failure Detection in Vision-Language-Action Models

arxiv url: http://arxiv.org/abs/2606.20754v1
Date: Thu, 18 Jun 2026 05:41:45 GMT
ステータス: 情報取得中
システム内更新日: 2026-06-23 11:15:29.123952
Title: Perturbation-Based Uncertainty for Failure Detection in Vision-Language-Action Models
Title（参考訳）: ビジョンランゲージ・アクションモデルにおける故障検出のための摂動に基づく不確かさ
Authors: Yousung Lee, Dongsoo Har,
Abstract要約: 隠れ活性化摂動による推定時間不確実性推定のためのモデルに依存しないフレームワークを提案する。摂動に基づく不確実性は、サンプリングに基づく不確実性と比較して、分布シフト時の故障検出を一貫して改善することを示す。
参考スコア（独自算出の注目度）: 5.736588561666141
License:
Abstract: Vision-Language-Action (VLA) models have shown strong performance in robotic manipulation, but reliable uncertainty quantification remains challenging, particularly under distribution shift. Unlike autoregressive policies, many modern VLA models generate continuous actions through regression or flow-based generation, where explicit predictive probabilities are unavailable. Moreover, existing approaches often rely on stochastic action sampling or supervised failure labels, limiting their applicability across diverse pretrained VLA models. In this work, we propose a label-free and model-agnostic framework for inference-time uncertainty estimation through hidden activation perturbations, motivated by Bayesian perspectives on local model variations. Specifically, we inject Gaussian perturbations into transformer hidden activations and estimate epistemic signals from disagreement across perturbed action predictions. Experiments on LIBERO and LIBERO-PRO show that perturbation-based uncertainty consistently improves failure detection under distribution shift compared to sampling-based uncertainty, providing a practical uncertainty signal for VLA models.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルは、ロボット操作において強力な性能を示したが、信頼性の高い不確実性定量化は、特に分布シフト下では難しいままである。自己回帰ポリシーとは異なり、多くの現代のVLAモデルは回帰またはフローベース生成を通じて連続的なアクションを生成し、明示的な予測確率は利用できない。さらに、既存のアプローチは確率的アクションサンプリングや教師付き障害ラベルに依存しており、様々な事前訓練されたVLAモデルに適用性を制限する。本研究では,局所モデル変動に対するベイズ的視点による隠れ活性化摂動による推測時間不確実性推定のための,ラベルフリーでモデルに依存しないフレームワークを提案する。具体的には、ガウス摂動を変圧器隠蔽活性化に注入し、摂動行動予測における不一致からててんかん信号を推定する。 LIBERO と LIBERO-PRO の実験により、摂動に基づく不確実性はサンプリングに基づく不確実性よりも分布シフト下での故障検出を一貫して改善し、VLA モデルの実用的な不確実性信号を提供することを示した。

関連論文リスト

Uncertainty Quantification for Flow-Based Vision-Language-Action Models [33.28454469934064]
視覚言語アクションモデル(VLA)は、視覚言語バックボーンと、大規模ロボットデータセットのフローマッチングによってトレーニングされた表現力豊かな生成アクションヘッドを組み合わせる。ロボット操作における強い経験的性能にもかかわらず、VLAは予測の信頼性を定量化し、動作が信頼できない可能性があることを検知するメカニズムを欠いている。本稿では,不確実性誘導型アクティブ微調整のためのフレームワークであるSAVEを提案する。
論文参考訳（メタデータ） (2026-06-16T15:19:09Z)
FUSE: Quantifying Uncertainty in Vision-Language Models by Bayesian Fusing Epistemic and Aleatoric Uncertainty [20.637224080557534]
ロボット工学などの多くの応用において、視覚言語モデルの出力の不確かさを定量化することが不可欠である。視覚言語モデリングにおける2つの相補的不確実性源を捉えるための確率的フレームワークであるFUSEを開発した。
論文参考訳（メタデータ） (2026-06-01T22:11:00Z)
ReconVLA: An Uncertainty-Guided and Failure-Aware Vision-Language-Action Framework for Robotic Control [7.018221049093963]
視覚-言語-アクション(VLA)モデルは、視覚観察と自然言語命令を連続的なアクションシーケンスにマッピングできる汎用ロボットコントローラとして登場した。 ReconVLAは、不確実性誘導および故障認識制御信号を生成する信頼性の高いコンフォメーションモデルである。以上の結果から, 共形行動予測は失敗予測を継続的に改善し, 破滅的エラーを低減し, 基礎となるVLAを調整・修正することなく信頼度を調整できることが示唆された。
論文参考訳（メタデータ） (2026-04-17T20:20:43Z)
Shifting Uncertainty to Critical Moments: Towards Reliable Uncertainty Quantification for VLA Model [10.781664119473966]
本稿では,ロールアウトの成功と失敗を予測するための統一的不確実性定量化手法を提案する。本手法は, 故障予測精度を大幅に向上し, 故障検出のための信頼性の高い信号を得る。
論文参考訳（メタデータ） (2026-03-18T22:52:03Z)
Post-hoc Probabilistic Vision-Language Models [54.05237186168399]
視覚言語モデル(VLM)は、分類、検索、生成タスクにおいて顕著な成功を収めている。追加トレーニングを必要としないVLMにおけるポストホック不確実性評価を提案する。この結果から,大規模モデルの安全性クリティカルな応用が期待できることがわかった。
論文参考訳（メタデータ） (2024-12-08T18:16:13Z)
Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文参考訳（メタデータ） (2024-08-20T09:42:26Z)
Predictive Uncertainty Quantification for Bird's Eye View Segmentation: A Benchmark and Novel Loss Function [10.193504550494486]
本稿では,Bird's Eye View (BEV)セグメンテーションにおける予測不確実性定量化のためのベンチマークを提案する。本研究は,非分類および非分布画素の検出における定量化不確実性の有効性に焦点をあてる。本研究では,不均衡なデータに特化して設計された新しい損失関数Uncertainty-Focal-Cross-Entropy (UFCE)を提案する。
論文参考訳（メタデータ） (2024-05-31T16:32:46Z)
Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文参考訳（メタデータ） (2023-04-13T17:56:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。