論文の概要: ProcessThinker: Enhancing Multi-modal Large Language Models Reasoning via Rollout-based Process Reward
- arxiv url: http://arxiv.org/abs/2606.11209v1
- Date: Thu, 23 Apr 2026 21:25:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.836497
- Title: ProcessThinker: Enhancing Multi-modal Large Language Models Reasoning via Rollout-based Process Reward
- Title(参考訳): ProcessThinker: ロールアウトベースのプロセスリワードによるマルチモーダル大言語モデル推論の強化
- Authors: Jingpei Wu, Xiao Han, Weixiang Shen, Boer Zhang, Zifeng Ding, Volker Tresp,
- Abstract要約: 視覚的な質問に答えるには、多段階の推論が必要である。
最近の強化学習によるポストトレーニングはマルチモーダル推論を改善することができる。
ほとんどのアプローチは、結果のみの報酬に頼っている。
ステップレベルのプロセス報酬を提供する実践的なポストトレーニングパイプラインであるProcessThinkerを提案する。
- 参考スコア(独自算出の注目度): 27.341541512259216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual question answering increasingly requires multi-step reasoning. Recent post-training with reinforcement learning under verifiable rewards (RLVR) and Group Relative Policy Optimization (GRPO) can improve multimodal reasoning, but most approaches rely on sparse outcome-only rewards. As a result, they struggle to tell whether an incorrect answer comes from a small mistake late in the reasoning or from an unhelpful trajectory from the start. A common solution is to train a process reward model (PRM) for step-level supervision, but this typically requires large-scale high-quality chain-of-thought annotations and additional training cost. We propose ProcessThinker, a practical post-training pipeline that provides step-level process rewards without training an explicit PRM. ProcessThinker first rewrites reasoning traces into a step-tagged format for cold-start supervised fine-tuning, then applies GRPO with a standard format reward and our rollout-based process reward. Concretely, for each intermediate step, we sample multiple continuations from that step and use the empirical success rate (final-answer verification) as the step reward. This gives dense credit assignment and encourages reasoning steps that more reliably support a correct conclusion, helping reduce inconsistent or self-contradictory progress across steps -- a key issue in logical reasoning. Across four challenging video benchmarks (Video-MMMU, MMVU, VideoMathQA, and LongVideoBench), ProcessThinker consistently improves over the baseline model Qwen3-VL-8B-Instruct
- Abstract(参考訳): 視覚的な質問に答えるには、多段階の推論が必要である。
検証可能な報酬(RLVR)とグループ相対政策最適化(GRPO)に基づく強化学習による最近のポストトレーニングは、多モーダル推論を改善することができるが、ほとんどのアプローチは、少ない結果のみの報酬に依存している。
結果として、彼らは、誤った答えが推論の遅れの小さなミスによるものなのか、あるいは最初から不完全な軌道によるものなのかを判断するのに苦労する。
一般的な解決策は、ステップレベルの監視のためにプロセス報酬モデル(PRM)をトレーニングすることだ。
明示的なPRMをトレーニングすることなくステップレベルのプロセス報酬を提供する,実践的なポストトレーニングパイプラインであるProcessThinkerを提案する。
ProcessThinkerはまず、コールドスタート管理された微調整のためのステップタグ付きフォーマットに推論トレースを書き直し、標準フォーマットの報酬とロールアウトベースのプロセス報酬をGRPOに適用します。
具体的には、各中間ステップに対して、そのステップから複数の継続をサンプリングし、ステップ報酬として経験的成功率(ファイナル・アンサー・バリデーション)を使用する。
これにより、密集したクレジットの割り当てが可能になり、正しい結論をより確実に支持する推論ステップを奨励し、ステップ間の矛盾や自己矛盾の進行を減らすのに役立つ -- 論理的推論における重要な問題である。
4つの挑戦的なビデオベンチマーク(Video-MMMU、MMVU、VideoMathQA、LongVideoBench)の中で、ProcessThinkerはベースラインモデルQwen3-VL-8B-Instructよりも一貫して改善されている。
関連論文リスト
- Unleashing Implicit Rewards: Prefix-Value Learning for Distribution-Level Optimization [74.91418266859297]
インプシットプロセス報酬モデル(PRM)は、推論プロセスに沿ってきめ細かな報酬信号を提供する。
トレーニングはシーケンスレベルの集約のみを制限しますが、推論はローカルステップの品質を反映するためにトークンレベルのスコアが必要です。
本稿では,予測精度を推定するプレフィックス条件付き値関数を直接学習する新しいインプリシット・プレフィックス・バリュー・リワード・モデル(IPVRM)を提案する。
また,サンプルトークンと高確率候補トークンの両方に対してTDの利点を演算する分散レベルRL(DistRL)を提案する。
論文 参考訳(メタデータ) (2026-04-14T18:19:54Z) - Answer-Consistent Chain-of-thought Reinforcement Learning For Multi-modal Large Langauge Models [33.398631680508814]
本稿では,GRPOアルゴリズムを補助的整合性チェックで修正するAnswer-Consistent Reinforcement Learningを提案する。
我々は、オリジナルとポストシャッフルの両方の回答が一致して正しい場合にのみ高い報酬を与える一貫性検証報酬を設計する。
我々は、ACREを挑戦的なビデオ推論ベンチマークとマルチモーダル数学推論ベンチマークで評価し、平均2.2%と1.5%の改善を達成した。
論文 参考訳(メタデータ) (2025-10-11T08:32:52Z) - Curing Miracle Steps in LLM Mathematical Reasoning with Rubric Rewards [40.905635870672945]
数学的推論のための大きな言語モデルは、通常結果に基づく報酬で訓練される。
我々の実験では、このパラダイムがハッキングに報酬を与える可能性が高く、モデルの推論能力のかなりの過大評価につながります。
これは、偽陽性の頻度が高いことが証明されている。
論文 参考訳(メタデータ) (2025-10-09T04:30:45Z) - RRO: LLM Agent Optimization Through Rising Reward Trajectories [52.579992804584464]
大規模言語モデル (LLM) は様々なタスクにおいて異常な性能を示した。
実際には、エージェントは特定の重要なステップの結果に敏感で、タスクを失敗する可能性がある。
この問題を軽減するために,Reward Rising Optimization (RRO)を提案する。
論文 参考訳(メタデータ) (2025-05-27T05:27:54Z) - Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [67.87579664988199]
TONは視覚言語モデル(VLM)のための2段階のトレーニング戦略である
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文 参考訳(メタデータ) (2025-05-22T16:13:29Z) - R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization [86.32257216965229]
そこで本稿では,MLLMの自己改善を支援するオンライン強化学習フレームワークを提案する。
StepGRPOは、Step-wise Reasoning Accuracy Reward (StepRAR)とStep-wise Reasoning Validity Reward (StepRVR)の2つの新しいルールベースの推論報酬を導入した。
提案するStepGRPOでは,ステップバイステップ推論に優れた機能を持つMLLMのシリーズであるR1-VLを紹介する。
論文 参考訳(メタデータ) (2025-03-17T08:51:44Z) - Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback [94.25162866972077]
Step-KTOは、プロセスレベルと結果レベルのバイナリフィードバックを組み合わせたトレーニングフレームワークである。
実験の結果,Step-KTOは最終回答の精度と中間推論の質の両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-18T15:38:03Z) - ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding [25.329712997545794]
ReARTeR(Retrieval-Augmented Reasoning)を提案する。
ReARTeRは、ポストトレーニングとテストタイムスケーリングを通じて、RAGシステムの推論能力を向上する。
マルチステップ推論ベンチマークの実験結果から,大幅な改善が示された。
論文 参考訳(メタデータ) (2025-01-14T05:56:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。