論文の概要: Beyond Scalar Rewards by Internalizing Reasoning into Score Distributions
- arxiv url: http://arxiv.org/abs/2606.09076v1
- Date: Mon, 08 Jun 2026 06:20:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.729679
- Title: Beyond Scalar Rewards by Internalizing Reasoning into Score Distributions
- Title(参考訳): スコア分布への推論の内部化によるScalar Rewardsの超越
- Authors: Xin Jin, Huanqia Cai, Zhen Li, Zechao Zhan, Dengyang Jiang, Aiming Hao, Yuming Jiang, Chunle Guo, Peng Gao, Ming-Ming Cheng, Steven C. H. Hoi,
- Abstract要約: Z-Rewardは効率的な報酬展開から推論と重大な判断を分離する。
Z-Reward はテキスト・画像の最適化のための識別可能な報酬信号として機能することを示す。
- 参考スコア(独自算出の注目度): 80.33276868889341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models are central to text-to-image post-training, but visual preference is subjective and better represented as a distribution over rubric scores than as a deterministic scalar. Existing scalar, score-token, and pairwise reward models over-compress uncertainty and fine-grained score differences, while reasoning-based generative rewards provide stronger judgments but are costly to deploy and difficult to use as direct optimization signals. We propose Z-Reward, a teacher-student reward modeling framework that decouples reasoning-heavy judgment from efficient reward deployment. The teacher is a large VLM that uses reasoning to infer rubric-aligned score distributions, and is trained with Group-wise Direct Score Optimization (GDSO), which combines policy-gradient rewards from distribution expectations with direct pointwise and pairwise supervision on score distributions and score gaps. The student is trained with Reasoning-Internalized Score Distillation (RISD), which transfers the teacher's reasoning-conditioned score distribution into a compact VLM without requiring explicit reasoning chains at inference time. On our internally annotated evaluation set, the 27B GDSO teacher reaches 89.6% human preference accuracy, outperforming SFT, RewardDance, and GRPO, while the 9B RISD student reaches 88.6%, outperforming the OPD baseline and closely matching the larger teacher. We further show that Z-Reward can serve as a differentiable reward signal for text-to-image optimization, yielding a 41.3% net human-preference improvement over the SFT baseline.
- Abstract(参考訳): リワードモデルは、テキストから画像へのポストトレーニングの中心であるが、視覚的嗜好は、決定論的スカラー(deterministic scalar)よりも、ルーリックスコア上の分布として表される。
既存のスカラー、スコアトケン、ペアワイズ報酬モデルでは不確実性と微妙なスコア差を過度に圧縮する一方、推論に基づく生成報酬はより強い判断を与えるが、直接最適化信号としての使用には費用がかかる。
Z-Reward は,効率的な報酬配置から推論重大判断を分離する教師学生報酬モデリングフレームワークである。
教師は、ルーブリックのスコア分布を推論するために推論を使用して大きなVLMであり、GDSO(Group-wise Direct Score Optimization)を用いて訓練されている。
学生は推論時に明示的な推論連鎖を必要とせず、教師の推論条件付きスコア分布をコンパクトなVLMに変換する推論内スコア蒸留(RISD)を指導する。
内部アノテートした評価セットでは,27B GDSO 教師が89.6%,SFT,RewardDance,GRPO が88.6%,9B RISD 学生が88.6%,OPD 教師が88.6%,OPD ベースラインが圧倒され,より大きな教師が密に一致した。
さらに、Z-Rewardはテキストと画像の最適化のための識別可能な報酬信号として機能し、SFTベースラインに対して41.3%の人為的な改善をもたらすことを示す。
関連論文リスト
- Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short [51.667769734342635]
検証可能な報酬付き強化学習(RLVR)は,大規模言語モデルの推論能力向上のための主要なパラダイムとなっている。
本研究では,非多変量報酬群を判定システムにルーティングする適応学習フレームワークであるReasoning Arenaを提案する。
我々は、Reasoning Arenaが、競争数学やコーディングベンチマークにおいて、RLVRベースラインを平均で7.6%上回っていることを示す。
論文 参考訳(メタデータ) (2026-06-08T11:57:17Z) - Reward Score Matching: Unifying Reward-based Fine-tuning for Flow and Diffusion Models [54.597200388738656]
Reward-based fine-tuningは、事前訓練された拡散またはフローベース生成モデルを、より高い逆サンプルに向けて操ることを目的としている。
報酬スコアマッチング (RSM) と呼ばれる共通フレームワークで記述できることが示される。
論文 参考訳(メタデータ) (2026-04-19T12:47:52Z) - From Absolute to Relative: Rethinking Reward Shaping in Group-Based Reinforcement Learning [7.6602542594279335]
本稿では,報酬形成を絶対得点から相対ランクへシフトさせるために,相対報酬を用いた強化学習を提案する。
RLRRは、推論ベンチマークやオープン・エンド・ジェネレーションタスクにおいて、標準グループベースベースラインよりも一貫した性能向上をもたらすことを示す。
論文 参考訳(メタデータ) (2026-01-30T15:07:06Z) - PROF: An LLM-based Reward Code Preference Optimization Framework for Offline Imitation Learning [29.373324685358753]
本稿では,自然言語記述から実行可能報酬関数コードを生成し,改善するためのフレームワークであるPROFと,単一専門家の軌跡を提案する。
また,環境相互作用やRLトレーニングを必要とせず,新たな報酬関数品質評価とランキング戦略であるReward Preference Ranking(RPR)を提案する。
論文 参考訳(メタデータ) (2025-11-14T14:38:02Z) - APLOT: Robust Reward Modeling via Adaptive Preference Learning with Optimal Transport [37.21695864040979]
報酬モデル(RM)は、強化学習(Reinforcement Learning)を通じて、大規模言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。
本稿では,適応的マージン機構によりBT系RMを効果的に強化する手法を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:13:28Z) - Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains [9.917318870162365]
Reinforcement Learning with Verifiable Rewards (RLVR) は、数学やコーディングのような明確な正当性信号を持つ複雑な推論タスクに有効であることが証明されている。
ラグビーは近年、そのような判断を捉えるために評価ベンチマークで使用されているが、オンラインのポストトレーニングの報奨信号としての可能性はまだ未定である。
本稿では,RLVRを検証可能な領域を超えて,ルーブリックフィードバックを用いて拡張するオンライン強化学習手法であるRaRを紹介する。
論文 参考訳(メタデータ) (2025-07-23T17:57:55Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。