論文の概要: When Good Verifiers Go Bad: Self-Improving VLMs Can Regress on New Tasks
- arxiv url: http://arxiv.org/abs/2606.14629v1
- Date: Fri, 12 Jun 2026 16:55:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.998961
- Title: When Good Verifiers Go Bad: Self-Improving VLMs Can Regress on New Tasks
- Title(参考訳): 優れた検証が悪くなるとき: 自己改善型VLMは、新しいタスクに回帰できる
- Authors: Jianzhe Lin,
- Abstract要約: 検証者駆動型自己DPOは、自己改善型視覚言語モデルのための一般的なレシピである。
検証器の品質がタスク固有のため,この仮定は失敗する可能性がある。
本稿では,プログレッシブゲートリプレイとその方向ミスマッチ故障モードに対する分散定理を用いて,コンパクトなメカニスティックな説明を行う。
- 参考スコア(独自算出の注目度): 2.743683637024251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Verifier-driven self-DPO is a common recipe for self-improving production visual-language models. In this setup, a frozen verifier scores candidate generations, the top- and bottom-scoring candidates form a preference example, and DPO updates the learner. The deployment-time assumption is monotone: a stronger verifier should yield a stronger student. We show that this assumption can fail because verifier quality is highly task-specific. On a four-rung open-source verifier ladder across MathVista, MMMU, and BLINK, the same verifiers that are above-threshold and improve a Qwen-3-VL-2B student on MathVista become sub-threshold on MMMU, where their task-rubric accuracy drops to 8% to 23%. In this regime, every verifier we tested silently regresses the student, producing drops of 3.4 to 10.9 percentage points below the frozen baseline while the DPO training loss continues to decrease. The regression replicates on a second student, Qwen-2.5-VL-3B. Moreover, within the failure regime, damage is confidence-inverted: the more accurate-but-still-wrong verifier causes larger regression than a near-random verifier, suggesting that progress-gated replay amplifies confidently wrong preference pairs. We give a compact mechanistic explanation via a variance theorem for progress-gated replay and its direction-mismatch failure mode. The deployment message is operational rather than purely diagnostic: before running any verifier-driven loop, teams should measure target-task rubric accuracy, rank verifiers by target-task rubric quality rather than parameter count, and treat diminishing returns in above-threshold regimes as a verifier-side compute budget cap.
- Abstract(参考訳): 検証者駆動型自己DPOは、自己改善型視覚言語モデルのための一般的なレシピである。
この設定では、凍結検証器が候補世代をスコアし、上位および下位の候補が選好例を形成し、DPOが学習者を更新する。
デプロイ時の仮定はモノトーンであり、より強い検証者はより強い学生を生み出すべきである。
検証器の品質がタスク固有のため,この仮定は失敗する可能性がある。
MathVista、MMMU、BLINKにまたがる4つのオープンソース検証はしごでは、MathVista上のQwen-3-VL-2Bの学生がMMMUのサブスレッショルドとなり、タスクルブリック精度は8%から23%に低下する。
この体制では、私たちがテストした検証者は生徒を静かに後退させ、凍ったベースラインより3.4~10.9ポイント低下させ、DPOトレーニング損失は減少し続けている。
回帰は第二の学生であるQwen-2.5-VL-3Bに複製される。
さらに、障害状態内では、損傷は信頼性が逆転し、より正確であるが、まだ証明されていない検証器は、ほぼランダムな検証器よりも大きな回帰を引き起こし、プログレッシブ・ゲート・リプレイが確実に間違った選好ペアを増幅することを示す。
本稿では,プログレッシブゲートリプレイとその方向ミスマッチ故障モードに対する分散定理を用いて,コンパクトなメカニスティックな説明を行う。
検証者駆動のループを実行する前に、チームは、ターゲットタスクのルーブリック精度を計測し、パラメータカウントよりもターゲットタスクのルーブリック品質によるランク検証を行い、検証者側の計算予算上限として、上層領域のリターンの減少を処理すべきである。
関連論文リスト
- TAPO: Tool-Aware Policy Optimization via Credit Transfer for Multimodal Search Agents [54.08846865906602]
ツール強化マルチモーダルサーチエージェントにおいて,クレジットミス割り当てをGRPOの系統的障害モードとして特徴付ける。
本稿では,情報取得ツールのパラメータ決定性を利用したツール・アウェア・ポリシー・オプティマイズ(TAPO)を提案する。
論文 参考訳(メタデータ) (2026-06-04T07:15:43Z) - VeriGate: Verifier-Gated Step-Level Supervision for GRPO [51.26100506256885]
グループ相対政策最適化は、検証者に基づく結果報酬を伴う推論モデルをトレーニングするための効果的なレシピである。
GRPO の検証子付き拡張である VeriGate を提案し,これらの制限を3つの設計選択で解決する。
We show that VeriGate improves average accuracy around 20% and 12% for 1.5B and 7B models respectively。
論文 参考訳(メタデータ) (2026-05-28T18:20:32Z) - Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models [94.68358825189738]
本稿では,予測精度と推論品質を協調的に最適化する検証済み領域の学習後フレームワークを提案する。
我々は,エンジン信号に対して推論ステップを確定的に検証できる制御テストベッドであるチェスのVPSを評価する。
VPSは、推論品質を著しく向上させながら精度を保ち、勝利率エラーを最大30%削減し、一貫性をほぼ飽和状態に回復する。
論文 参考訳(メタデータ) (2026-04-03T15:19:46Z) - MIST-RL: Mutation-based Incremental Suite Testing via Reinforcement Learning [19.054149750597933]
MIST-RL (Mutation-based Incremental Suite Testing via Reinforcement Learning) は、"スケーリング・バイ・ユーティリティ(scaling-by-utility)"に重点を移すフレームワークである。
我々は,機能的に等価なアサーションを抑えながら,新たな欠陥を発見するモデルにインセンティブを与える,動的ペナルティと組み合わされた新たなインクリメンタル突然変異報酬を導入する。
HumanEval+とMBPP+の実験は、MIST-RLが最先端のベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2026-03-02T03:22:44Z) - PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering [71.15346406323827]
本稿では,プロセス・アウトカム・アライメント・アライメント・検証における検証結果を評価するベンチマークであるPRIMEを紹介する。
現在の検証器は、しばしば導出欠陥を検出するのに失敗する。
本稿では,PRIMEで選択した検証手法を利用したプロセス認識型RLVRトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2026-02-12T04:45:01Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense [36.71358559780692]
HEROは、検証者信号と報酬モデルスコアを構造化された方法で統合する強化学習フレームワークである。
HEROはRMのみのベースラインと検証者のみのベースラインを一貫して上回り、検証可能なタスクと検証しにくいタスクの両方で大きな利益を上げている。
論文 参考訳(メタデータ) (2025-10-08T17:09:41Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。