論文の概要: From Correctness to Utility: Gain-Based Prefix Evaluation for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2606.07190v1
- Date: Fri, 05 Jun 2026 11:56:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.725161
- Title: From Correctness to Utility: Gain-Based Prefix Evaluation for LLM Reasoning
- Title(参考訳): 正確性から実用性へ:LLM推論のためのゲインベースプレフィックス評価
- Authors: Yuhang Zhou, Yixin Cao, Guangnan Ye,
- Abstract要約: 正しさは、最終的に私たちが関心を持つ効果の、有用だが間接的なプロキシである、と私たちは主張する。
この効果をプレフィックスゲイン(プレフィックスゲイン)と定義し、プレフィックスに軽量の学生モデルグループを条件付けすることで解決率の向上を図った。
これを使って、単純なペアのランク付け目的でPrefix Utility Model(PUM)をトレーニングします。
- 参考スコア(独自算出の注目度): 27.89240261179023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning prefixes shape the future trajectory of LLM problem solving, yet existing process reward models usually evaluate them through local step correctness. We argue that correctness is a useful but indirect proxy for the effect we ultimately care about: whether a prefix increases the probability of successful completion. We define this effect as prefix gain, the solve-rate improvement induced by conditioning lightweight student model group on a prefix, and use it to train a Prefix Utility Model (PUM) with a simple pairwise ranking objective. PUM learns outcome-grounded prefix utility and can score both complete trajectories and partial reasoning prefixes. Across Best-of-$N$ selection, beam search, and reinforcement learning on mathematical reasoning, PUM provides a strong prefix-level supervision signal, especially when candidate pools are large, search budgets increase, or rule-based rewards are sparse. We release all data, models, and code at https://zhiqix.github.io/pum-project-page.
- Abstract(参考訳): 推論プレフィックスは、LLM問題解決の将来の軌跡を形成するが、既存のプロセス報酬モデルは通常、局所的なステップの正しさによってそれらを評価する。
正当性は、私たちが最終的に注意する効果、つまりプレフィックスが成功の確率を増大させるかどうかの、有用であるが間接的なプロキシであると主張する。
我々は,この効果をプレフィックスゲイン(プレフィックスゲイン)と定義し,プレフィックスユーティリティモデル(PUM)を簡単なペアのランク付け目的でトレーニングする。
PUMは結果基底プレフィックスユーティリティを学習し、完全な軌跡と部分的推論プレフィックスの両方をスコアできる。
選択、ビームサーチ、数学的推論に関する強化学習の他、PUMは強力なプレフィックスレベルの監視信号を提供し、特に候補プールが大きい場合、検索予算が増加し、ルールベースの報酬が不足している。
すべてのデータ、モデル、コードをhttps://zhiqix.github.io/pum-project-pageでリリースします。
関連論文リスト
- $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - APAO: Adaptive Prefix-Aware Optimization for Generative Recommendation [26.371939617653084]
生成レコメンデーションは自動回帰生成プロセスであり、ユーザインタラクション履歴に基づいて、次の項目の離散トークンを予測する。
既存の生成レコメンデーションモデルは、通常、クロスエントロピー損失のようなトークンレベルの可能性目標で訓練される。
標準的なトレーニングでは、推論中にビームサーチが低確率の分岐を産み出すという事実を無視して、地道の歴史が常に利用可能であると仮定している。
論文 参考訳(メタデータ) (2026-03-03T08:29:15Z) - Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2026-01-26T21:38:20Z) - Knowing the Answer Isn't Enough: Fixing Reasoning Path Failures in LVLMs [85.37131922131657]
我々はLVLM(Large Vision-Language Models)の重大な欠陥を明らかにした。
これらのモデルが正しい答えを知っていても、誤った推論経路を通じて頻繁にそこに到達します。
PSO(Path-Select Optimization)は,既存のLVLMの推論性能と安定性を両立させる2段階のポストトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-06T03:02:55Z) - FlowRL: Matching Reward Distributions for LLM Reasoning [69.88820066093798]
大規模言語モデル(LLM)強化学習(RL)において、報酬を最大化する代わりに、フローバランシングによる全報酬分布をマッチングするフローRLを提案する。
我々はスカラー報酬を学習可能な分割関数を用いて正規化対象分布に変換し、その後、ポリシーと対象分布との逆KL分散を最小化する。
論文 参考訳(メタデータ) (2025-09-18T17:56:36Z) - Accelerating LLM Reasoning via Early Rejection with Partial Reward Modeling [12.835376812101323]
PRMも部分的リワードモデルであるという仮説を導入する。
これにより、中間トークンレベル信号に基づく原理的な早期拒絶が可能となる。
算数推論のベンチマークでは、最終的な性能を劣化させることなく、最大1.4$times$-9$times$の推論FLOPを削減できる。
論文 参考訳(メタデータ) (2025-08-04T00:58:56Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Online Preference Alignment for Language Models via Count-based Exploration [46.46627519343809]
Reinforcement Learning from Human Feedback (RLHF)は、人間の好みに合わせて微調整された大規模言語モデル(LLM)に大きな可能性を示している。
既存のメソッドは、データカバレッジに制限のある、固定データセットからの好みのアライメントを実行する。
オンラインRLHFは、プロンプト-レスポンスペアを反復的に収集することで、LLMが初期データセットのサポートの外部を探索できるようにするのが望ましい。
論文 参考訳(メタデータ) (2025-01-22T09:12:09Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。