Fugu-MT 論文翻訳(概要): The Unreasonable Effectiveness of VLMs for Zero-shot Procedural Mistake Detection

論文の概要: The Unreasonable Effectiveness of VLMs for Zero-shot Procedural Mistake Detection

arxiv url: http://arxiv.org/abs/2606.21579v1
Date: Fri, 19 Jun 2026 16:31:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-25 12:37:43.07388
Title: The Unreasonable Effectiveness of VLMs for Zero-shot Procedural Mistake Detection
Title（参考訳）: ゼロショット手続きミス検出におけるVLMの不可逆的有効性
Authors: Serdar Ozsoy, Lars Doorenbos, Federico Spurio, Gianpiero Francesca, Juergen Gall,
Abstract要約: 手続き的誤り検出は多くの分野にわたる品質管理とユーザ支援において重要である。この分野での最近の研究は、VLM(Video-Language Models)の推論機能をマルチステージパイプライン内のコンポーネントとして活用することで、大きな成果を上げている。本稿では,1つの事前訓練されたVLMを用いて,手続き的誤り検出と時間的動作分割を共同で解決するZero-shot Procedural Mistake検出フレームワークを提案する。
参考スコア（独自算出の注目度）: 27.97762014835384
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Procedural mistake detection is important for quality control and user assistance across many disciplines. Recent work in this field has achieved significant gains by using the reasoning capabilities of Video-Language Models (VLMs) as components within multi-stage pipelines, which consist of separate modules for supervised temporal action segmentation, error detection, and explainability. Consequently, they remain dependent on tailored training datasets and require task-specific training, limiting their wider applicability. To remedy this, we introduce zero-shot procedural mistake detection and propose a unified Zero-shot Procedural Mistake detection (ZeProM) framework that jointly solves procedural mistake detection and temporal action segmentation with a single pre-trained VLM. By evaluating our framework on two canonical mistake detection benchmarks, EgoPER and CaptainCook4D, we find that ZeProM can perform these tasks successfully, while approaching, or even outperforming, the performance of fully supervised methods. For instance, we achieve a 4.4 point improvement in EDA and a 2.0 point improvement in F1@.5 on average over all five EgoPER tasks compared to the strongest supervised methods. Overall, our results show the potential of unified methods for procedural mistake detection, and we hope this will steer the field away from highly complex pipelines and toward more generally applicable solutions.
Abstract（参考訳）: 手続き的誤り検出は多くの分野にわたる品質管理とユーザ支援において重要である。この分野での最近の研究は、ビデオ言語モデル(VLM)の推論能力を多段階パイプライン内のコンポーネントとして利用することで大きな成果を上げている。その結果、トレーニングデータセットの調整に引き続き依存し、タスク固有のトレーニングを必要とし、適用範囲を制限している。そこで本研究では,ゼロショットの手続き的誤り検出を導入し,ゼロショットの手続き的誤り検出(ZeProM)フレームワークを提案する。 EgoPERとCaptainCook4Dの2つの標準ミス検出ベンチマークでフレームワークを評価することで、ZeProMは、完全に教師されたメソッドの性能に近づきつつも、パフォーマンスも向上しながら、これらのタスクを正常に実行できることがわかりました。例えば、EDAの4.4ポイント改善とF1@.5の2.0ポイント改善を、5つのEgoPERタスクの平均で達成しています。全体としては、手続き的誤り検出のための統一手法の可能性を示しており、これは非常に複雑なパイプラインから、より一般的に適用可能なソリューションへと、フィールドを遠ざけることを願っている。

関連論文リスト

VLA-FAIL: Efficient Task Failure Detection for Finetuned Vision-Language-Action Models [19.137291311347788]
視覚言語アクションモデル(VLA)は、多くのロボットタスクで最先端のパフォーマンスを達成するが、それでも、アウト・オブ・ディストリビューションのシナリオでは予測不可能に振る舞うことができる。本稿では、2つの新しい障害検出器を最小限のオーバーヘッドで結合するフレームワークであるVLA-FAILを提案する。
論文参考訳（メタデータ） (2026-06-19T12:51:21Z)
TraceCoder: A Trace-Driven Multi-Agent Framework for Automated Debugging of LLM-Generated Code [11.207330722400764]
人間の観察・分析・修復過程をエミュレートするフレームワークであるTraceCoderを提案する。このフレームワークはまずコードを診断プローブで測定し、粒度の細かいランタイムトレースをキャプチャする。その後、これらのトレースについて因果解析を行い、失敗の根本原因を正確に特定する。
論文参考訳（メタデータ） (2026-02-06T16:59:48Z)
Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文参考訳（メタデータ） (2025-10-16T05:35:37Z)
Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文参考訳（メタデータ） (2025-04-10T16:14:17Z)
Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文参考訳（メタデータ） (2025-03-21T06:12:06Z)
Transparent and Coherent Procedural Mistake Detection [30.540514590818265]
手続き的誤り検出(英: Procedural mis detection、PMD)は、人間がタスクをうまく実行したかどうかを分類する難しい問題である(手続き的テキストで特定)。我々は、意思決定に視覚的自己対話的合理性を生成するためにPMDを拡張した。近年のヴィジュアル・アンド・ランゲージモデル(VLM)で観察される印象的かつ成熟した画像理解能力を考えると、個々のフレームに基づいてPMDに適したベンチマークデータセットをキュレートする。
論文参考訳（メタデータ） (2024-12-16T16:13:55Z)
Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文参考訳（メタデータ） (2024-03-04T16:21:54Z)
Robust Analysis of Multi-Task Learning Efficiency: New Benchmarks on Light-Weighed Backbones and Effective Measurement of Multi-Task Learning Challenges by Feature Disentanglement [69.51496713076253]
本稿では,既存のMTL手法の効率性に焦点をあてる。バックボーンを小さくしたメソッドの大規模な実験と,MetaGraspNetデータセットを新しいテストグラウンドとして実施する。また,MTLにおける課題の新規かつ効率的な識別子として,特徴分散尺度を提案する。
論文参考訳（メタデータ） (2024-02-05T22:15:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。