論文の概要: VLA-FAIL: Efficient Task Failure Detection for Finetuned Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2606.21386v1
- Date: Fri, 19 Jun 2026 12:51:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 13:50:47.431516
- Title: VLA-FAIL: Efficient Task Failure Detection for Finetuned Vision-Language-Action Models
- Title(参考訳): VLA-FAIL:微調整型視覚言語行動モデルのための効率的なタスク故障検出
- Authors: Florian Seligmann, Emiliyan Gospodinov, Enes Ulas Dincer, Gerhard Neumann,
- Abstract要約: 視覚言語アクションモデル(VLA)は、多くのロボットタスクで最先端のパフォーマンスを達成するが、それでも、アウト・オブ・ディストリビューションのシナリオでは予測不可能に振る舞うことができる。
本稿では、2つの新しい障害検出器を最小限のオーバーヘッドで結合するフレームワークであるVLA-FAILを提案する。
- 参考スコア(独自算出の注目度): 19.137291311347788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language-action models (VLAs) achieve state-of-the-art performance on many robotic manipulation tasks, yet they can still behave unpredictably in out-of-distribution scenarios. Runtime failure detection is therefore essential for the safe real-world deployment of VLAs. However, existing task failure detectors require computationally expensive action sampling, are based on architectural assumptions that limit their applicability to VLAs, or need access to failure rollouts. We propose VLA-FAIL, a lightweight and broadly applicable failure detection framework for VLAs that combines two novel failure detectors with minimal overhead, without requiring failure data. The first, last-layer Mahalanobis distance (LLMD), detects out-of-distribution states by measuring token-wise deviations in last-layer features relative to the training data. The second, action chunk consistency (ACC), exploits the temporal overlap induced by receding-horizon control and detects failures when consecutive action chunks become inconsistent. To capture the trade-off between detection accuracy and detection latency, we introduce AUCPDT, a threshold-independent metric that jointly evaluates precision, recall, and detection time. Through extensive real-world and simulation experiments, we demonstrate that LLMD and ACC capture complementary failure modes whose combination enables reliable and early failure detection across diverse tasks, frequently outperforming significantly more expensive baseline methods.
- Abstract(参考訳): 視覚言語アクションモデル(VLA)は、多くのロボット操作タスクにおいて最先端のパフォーマンスを達成するが、分配外のシナリオでは予測不可能に振る舞うことができる。
したがって、VLAの安全な実環境展開には、実行時の障害検出が不可欠である。
しかし、既存のタスク障害検出装置は、計算に高価なアクションサンプリングを必要とし、アーキテクチャ上の仮定に基づいて、VLAの適用性を制限するか、あるいは障害のロールアウトにアクセスする必要がある。
本稿では、2つの新しい障害検出器を最小限のオーバーヘッドで組み合わせ、障害データを必要としない、軽量で広く適用可能なVLAの障害検出フレームワークであるVLA-FAILを提案する。
最初の最終層マハラノビス距離(LLMD)は、トレーニングデータに対する最終層の特徴におけるトークンの偏差を測定して分布外状態を検出する。
第2のアクションチャンク一貫性(ACC)は、後退水平制御によって引き起こされる時間的重複を利用して、連続的なアクションチャンクが一貫性のないときに障害を検出する。
検出精度と検出レイテンシのトレードオフを捉えるために,精度,リコール,検出時間を共同で評価するしきい値非依存メトリックであるAUCPDTを導入する。
LLMD と ACC が相補的障害モードを捕捉し,様々なタスクの信頼性と早期故障検出を実現し,高コストのベースライン法よりも高い性能を示すことを示す。
関連論文リスト
- Uncertainty Quantification for Flow-Based Vision-Language-Action Models [33.28454469934064]
視覚言語アクションモデル(VLA)は、視覚言語バックボーンと、大規模ロボットデータセットのフローマッチングによってトレーニングされた表現力豊かな生成アクションヘッドを組み合わせる。
ロボット操作における強い経験的性能にもかかわらず、VLAは予測の信頼性を定量化し、動作が信頼できない可能性があることを検知するメカニズムを欠いている。
本稿では,不確実性誘導型アクティブ微調整のためのフレームワークであるSAVEを提案する。
論文 参考訳(メタデータ) (2026-06-16T15:19:09Z) - Hide-and-Seek in Trajectories: Discovering Failure Signals for VLA Runtime Monitoring [35.34120853605602]
textbf-and-Seekは、粗い教師付き学習問題としてVLA障害検出を定式化するフレームワークである。
我々は、LIBERO、VLABench、および3つの代表的なVLAポリシーをまたいだ現実世界のロボットプラットフォームについて、Hie-and-Seekの評価を行った。
論文 参考訳(メタデータ) (2026-05-29T04:40:12Z) - Failure Identification in Imitation Learning Via Statistical and Semantic Filtering [2.2515832864485024]
ロボット工学における模倣学習(IL)ポリシは、制御された設定において強力なパフォーマンスを提供するが、実際のデプロイメントでは脆弱である。
本稿では、ポリシーに依存しない障害検出モジュールFIDeL(Failure Identification in Demonstration Learning)を紹介する。
また,ロボット工学における故障検出のための実世界のタスクのマルチモーダルデータセットであるBotFailsを紹介した。
論文 参考訳(メタデータ) (2026-04-15T12:27:32Z) - From Knowing to Doing Precisely: A General Self-Correction and Termination Framework for VLA models [42.553888395227766]
本稿では、視覚言語アクション(VLA)モデルのための軽量でトレーニング不要なフレームワークを提案する。
VLA-SCTは自己修正制御ループとして動作し、データ駆動型アクションリファインメントと条件論理を組み合わせて終了する。
本手法は,LIBEROベンチマークのすべてのデータセットに対して一貫した改善を実現する。
論文 参考訳(メタデータ) (2026-02-02T08:44:40Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Contamination Detection for VLMs using Multi-Modal Semantic Perturbation [73.76465227729818]
オープンソースのVision-Language Models (VLM)は、ベンチマークタスクで最先端のパフォーマンスを達成した。
プレトレーニングコーパスは,テストセットリークによるパフォーマンスの低下という,実践者とユーザ双方にとって重要な懸念を提起する。
既存の検出手法が不整合性を示すか,不整合性を示すかを示す。
マルチモーダルなセマンティック摂動に基づく,新しい簡易かつ効果的な検出法を提案する。
論文 参考訳(メタデータ) (2025-11-05T18:59:52Z) - SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model [52.47816604709358]
ビデオ異常検出(VAD)は、ビデオ内の予期せぬ事象を識別することを目的としており、安全クリティカルドメインに広く応用されている。
視覚言語モデル(VLM)は強力なマルチモーダル推論能力を示し、異常検出の新しい機会を提供している。
SlowFastVADは高速異常検出器と低速異常検出器を統合したハイブリッドフレームワークである。
論文 参考訳(メタデータ) (2025-04-14T15:30:03Z) - Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z) - Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress [31.952925824381325]
本稿では,障害検出を補完する2つのカテゴリに分割するランタイム監視フレームワークを提案する。
視覚言語モデル(VLM)を用いて、ポリシーがタスクを解決しないアクションを確実かつ一貫して行うことを検知する。
時間的一貫性検出とVLMランタイム監視を統一することにより、Sentinelは2つの検出器のみを使用する場合よりも18%の障害を検出する。
論文 参考訳(メタデータ) (2024-10-06T22:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。