論文の概要: Representation-Aware Advantage Estimation: Your Reward Model Provides More Than A Scalar Output
- arxiv url: http://arxiv.org/abs/2606.10528v1
- Date: Tue, 09 Jun 2026 07:57:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.376297
- Title: Representation-Aware Advantage Estimation: Your Reward Model Provides More Than A Scalar Output
- Title(参考訳): Representation-Aware Advantage Estimation: Reward Modelはスカラー出力以上のものを提供する
- Authors: Guozheng Li, Xiyan Fu, Yiwen Guo,
- Abstract要約: 本稿では,RM隠れ状態を利用した表現認識の利点推定手法を提案する。
AlpacaEval 2.0ではArena-Hard-v0.1で最大6.3、AlpacaEval 2.0では8.27、MT-Benchでは0.22である。
- 参考スコア(独自算出の注目度): 31.83856936482982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current reinforcement learning from human feedback (RLHF) methods primarily rely on scalar rewards from a trained reward model (RM). While effective, scalar rewards are often noisy and fail to capture fine-grained preference differences, whereas RM hidden states encode richer semantic and preference information. We introduce the representation-aware advantage estimation, which leverages RM hidden states and models them as auxiliary signals for better advantage estimation. Specifically, we propose the Graph-based Advantage Estimation (GraphAE), treat each sampled group as a graph, where nodes correspond to responses and edges capture their similarity in the RM hidden space. Then advantages are computed via graph propagation, enabling each sample to incorporate contextual information from its neighbors. GraphAE is lightweight and can be seamlessly integrated into existing group-based RL algorithms. We apply GraphAE to GRPO, GSPO and RLOO, and conduct extensive experiments on different models and benchmarks. Empirical results show consistent improvements across three benchmarks, with gains of up to + 6.3 on Arena-Hard-v0.1, + 8.27 on AlpacaEval 2.0, and + 0.22 on MT-Bench. These results demonstrate that leveraging RM representations leads to more sample efficient and robust RLHF.
- Abstract(参考訳): 人間のフィードバック(RLHF)による現在の強化学習は、主に訓練された報酬モデル(RM)からのスカラー報酬に依存している。
有効ではあるが、スカラー報酬はノイズが多く、微妙な選好差を捉えられず、一方RM隠された状態はよりリッチなセマンティクスと選好情報をエンコードする。
本稿では、RM隠蔽状態を利用した表現認識の利点推定を導入し、それらを補助信号としてモデル化し、より良い利点推定を行う。
具体的には、グラフベースのアドバンテージ推定(GraphAE)を提案し、各サンプル群をグラフとして扱い、ノードは応答に対応し、エッジはRM隠れ空間で類似性を捉える。
次に、グラフの伝搬によって利点が計算され、各サンプルが隣人からのコンテキスト情報を組み込むことができる。
GraphAEは軽量で、既存のグループベースのRLアルゴリズムにシームレスに統合できる。
GRPO,GSPO,RLOOにGraphAEを適用し,異なるモデルやベンチマークで広範な実験を行う。
実験の結果、AlpacaEval 2.0ではArena-Hard-v0.1で最大6.3、AlpacaEval 2.0では8.27、MT-Benchでは0.22という3つのベンチマークで一貫した改善がなされた。
これらの結果から,RM表現の活用により,より効率的かつ堅牢なRLHFが得られることが示された。
関連論文リスト
- Advantage Collapse in Group Relative Policy Optimization: Diagnosis and Mitigation [13.272542054938258]
非効率な勾配でトレーニングバッチの割合を定量化する最初の指標であるAdvantage Collapse Rate (ACR)を導入する。
次に、仮想報酬サンプルを注入するGRPOの軽量拡張であるAdaptive Virtual Sample Policy Optimization (AVSPO)を提案する。
AVSPOはGRPOに対して58~63%の利害崩壊を減少させ、すべてのモデルスケールで4~6ポイントの一貫した精度向上をもたらす。
論文 参考訳(メタデータ) (2026-05-20T12:57:37Z) - Approximate Subgraph Matching with Neural Graph Representations and Reinforcement Learning [15.3743761404157]
本稿では,強化学習に基づく近似部分グラフマッチング(RL-ASM)アルゴリズムを提案する。
このモデルでは,2つの入力グラフから1対のノードを1対選択し,潜在的なマッチングを行うアルゴリズムを構築している。
合成データセットと実世界のデータセットの両方の実験により、我々のRL-ASMは、有効性と効率の点で既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2026-03-18T21:53:23Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - Learning Goal-Conditioned Representations for Language Reward Models [10.94845204766088]
対照的な$textitgoal-conditioned$でトレーニング報酬モデル(RM)を提案する。
RM表現のこのトレーニング方法により、textitsteerability$が向上し、特定の目標状態を達成するアクションの可能性を評価することができる。
さらに、これらの表現は、希望する将来の目標状態に条件付けすることで、きめ細かい制御を行うことができる。
論文 参考訳(メタデータ) (2024-07-18T20:23:11Z) - SMaRt: Improving GANs with Score Matching Regularity [114.43433222721025]
生成的敵ネットワーク(GAN)は通常、基礎となる多様体が複雑である非常に多様なデータから学ぶのに苦労する。
スコアマッチングは、生成したデータポイントを実データ多様体へ持続的にプッシュする能力のおかげで、この問題に対する有望な解決策であることがわかった。
提案手法は, 実世界のデータセットにおいて, 近似スコア関数として機能する事前学習拡散モデルを用いて, 最先端のGANの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-11-30T03:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。