論文の概要: ConSteer-RL: Steering Reasoning Capabilities in Large Language Models via Confidence-Aware Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.08088v1
- Date: Sat, 06 Jun 2026 10:23:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.769511
- Title: ConSteer-RL: Steering Reasoning Capabilities in Large Language Models via Confidence-Aware Reinforcement Learning
- Title(参考訳): ConSteer-RL:信頼を意識した強化学習による大規模言語モデルのステアリング推論能力
- Authors: Qing Miao, Yiming Zhao, Jing Yang, Chenxi Liu, Yuehai Chen, Yuewen Liu, Shaoyi Du, Badong Chen,
- Abstract要約: ConSteer-RLは、モデルのログ確率からトークンレベルの信頼性信号をRLVRトレーニングに統合するフレームワークである。
ConSteer-RLは強いGRPOベースラインを一貫して上回り、異なるモデルスケールで平均2.3%-4.0%の改善を実現している。
- 参考スコア(独自算出の注目度): 59.30961932700388
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement Learning from Verifiable Rewards (RLVR) has recently become a key paradigm for improving the reasoning abilities of Large Language Models (LLMs), yet it remains limited by sparse binary rewards and its ignorance of model-internal uncertainty. In this paper, we propose ConSteer-RL, a simple yet effective framework that integrates token-level confidence signals derived from model log-probabilities into RLVR training. Specifically, building upon the Group Relative Policy Optimization (GRPO) framework, we construct a confidence-aware reward by aggregating per-token probabilities into a scalar confidence score and incorporating it into an awareness-based reward shaping mechanism that penalizes overconfident errors while reinforcing correct and confident reasoning. Experimental results demonstrate that ConSteer-RL consistently outperforms strong GRPO baselines, achieving average improvements of 2.3%-4.0% across different model scales.
- Abstract(参考訳): Reinforcement Learning from Verifiable Rewards (RLVR) は近年,Large Language Models (LLMs) の推論能力向上のための重要なパラダイムとなっている。
本稿では,モデルログ確率から得られたトークンレベルの信頼性信号をRLVRトレーニングに統合する,シンプルで効果的なフレームワークであるConSteer-RLを提案する。
具体的には,グループ相対政策最適化(GRPO)フレームワークを基盤として,各確率をスカラー信頼スコアに集約し,過度に信頼された誤りを罰する認識に基づく報酬形成機構に組み込むことにより,信頼性に配慮した報酬を構築する。
実験の結果、ConSteer-RLは強いGRPOベースラインを一貫して上回り、異なるモデルスケールで平均2.3%-4.0%の改善を達成した。
関連論文リスト
- Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards [73.44333771806282]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデルの推論能力向上に有効なパラダイムとして登場した。
本稿では,RLVRの簡易かつ効果的な拡張であるCIPO(Correction-Oriented Policy Optimization)を提案する。
CIPOは学習効率を向上し、モデルが自身のエラーを修正する能力を明示的に強化する。
論文 参考訳(メタデータ) (2026-05-14T08:22:21Z) - Process Supervision of Confidence Margin for Calibrated LLM Reasoning [52.373121066425455]
強化学習(RL)によるテスト時間計算のスケーリングは,大規模言語モデル(LLM)推論能力を向上させるための信頼性の高い経路として登場した。
しかし、結果に基づく報酬は、しばしばモデルに過信感を与え、幻覚、信頼できない信頼ベースの制御、不要な計算割り当てをもたらす。
本稿では,信頼性と信頼性を両立させるキャリブレーションを意識したRLフレームワークであるReinforcement Learning with Confidence Margin(textbfRLCM)を紹介する。
論文 参考訳(メタデータ) (2026-04-25T14:40:13Z) - VI-CuRL: Stabilizing Verifier-Independent RL Reasoning via Confidence-Guided Variance Reduction [55.04308051033549]
RLVR(Reinforcement Learning with Verifiable Rewards)は、LLM(Large Language Models)推論を向上するための主要なパラダイムとして登場した。
モデル固有の信頼性を活用して外部検証から独立したカリキュラムを構築するフレームワークであるVerifier-Independent Curriculum Reinforcement Learning (VI-CuRL)を紹介する。
論文 参考訳(メタデータ) (2026-02-13T03:40:52Z) - Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - Confidence as a Reward: Transforming LLMs into Reward Models [54.98336080630691]
Confidence-as-a-Reward (CRew) は、モデルの最終回答に対するトークンレベルの信頼を報酬のプロキシとして利用する、トレーニング不要の手法である。
CRew は MATH500 および RewardMATH ベンチマークにおいて,既存のトレーニングフリー報酬手法よりも優れていることを示す。
本稿では,信頼度スコアと正当性信号を組み合わせた選好データを構成する訓練戦略であるCRew-DPOを提案する。
論文 参考訳(メタデータ) (2025-10-15T12:51:47Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - Reward-Robust RLHF in LLMs [25.31456438114974]
大規模言語モデル(LLM)は、より高度なインテリジェンスへと進化を続けている。
報酬モデルに基づく(RMに基づく)アライメント手法への依存は、大きな課題をもたらす。
本稿では,これらの課題に対処することを目的とした報酬損耗型RLHFフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-18T02:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。