論文の概要: A Unifying Lens on Reward Uncertainty in RLHF
- arxiv url: http://arxiv.org/abs/2606.09073v2
- Date: Wed, 10 Jun 2026 20:16:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 13:39:59.50153
- Title: A Unifying Lens on Reward Uncertainty in RLHF
- Title(参考訳): RLHFにおける逆不確かさの統一レンズ
- Authors: Ely Hahami, Yoel Zimmermann, Ray Zhou, Jack Benarroch Jedlicki,
- Abstract要約: 人間のフィードバックからの強化学習は、報酬ハッキングによってボトルネックとなる。
自然緩和は悲観主義であり、RMが不確実な地域で報酬を下げる。
正しい対象は分配報酬モデル $p(rmid x,y)$ であると主張する。
- 参考スコア(独自算出の注目度): 0.2447206672789868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) is bottlenecked by reward hacking, where the policy exploits errors in a proxy reward model (RM) and produces high RM scores without genuine quality gains. A natural mitigation is pessimism: lowering rewards in regions where the RM is uncertain. However, standard scalar RMs provide no principled notion of uncertainty. We argue that the right object is a distributional reward model $p(r\mid x,y)$. Under either a Bayesian inference or a KL-distributionally robust optimization (KL-DRO) lens, the KL-regularized RLHF objective admits a closed-form effective reward $\tilde r(x,y) = \pmβ\log\mathbb{E}_p[e^{\pm r/β}]$. The pessimistic branch unifies the prior heuristics for RM ensemble aggregation: mean aggregation, worst-case optimization (WCO), and uncertainty-weighted optimization (UWO) all emerge as limits or truncations of this single expression. This also clarifies the implicit assumptions of each existing rule.
- Abstract(参考訳): ヒューマンフィードバック(RLHF)からの強化学習は報酬ハックによってボトルネックとなり、ポリシーはプロキシ報酬モデル(RM)のエラーを悪用し、真の品質向上なしに高いRMスコアを生成する。
自然緩和は悲観主義であり、RMが不確実な地域で報酬を下げる。
しかし、標準的なスカラーRMは不確実性の概念を提供しない。
正しい対象は分配報酬モデル $p(r\mid x,y)$ であると主張する。
ベイズ予想またはKL-分布的ロバスト最適化(KL-DRO)レンズの下では、KL-正則化 RLHF 目的は閉形式実効報酬 $\tilde r(x,y) = \pmβ\log\mathbb{E}_p[e^{\pm r/β}]$ を認める。
悲観的な分岐は、平均アグリゲーション、最悪のケース最適化(WCO)、不確実性重み付け最適化(UWO)といった、RMアンサンブルアグリゲーションの以前のヒューリスティックスを統合する。
これはまた、既存の規則の暗黙の仮定を明らかにする。
関連論文リスト
- Annealed Softmax Greedy in Many-Armed Bayesian Bandits [9.553819152637493]
報奨付き強化学習(RLVR)とGRPOのようなグループベースのポリシー最適化手法は、プロンプト毎に複数の完了をサンプリングすることで検証可能なポリシーを更新する。
本稿では,不確実性に依存しない更新が有効である理由について,スタイリングした説明を行う。
論文 参考訳(メタデータ) (2026-05-29T09:05:29Z) - Theoretical Limits of Language Model Alignment [9.45142272392467]
言語モデル(LM)アライメントは、ベースモデルの能力を保ちながら、人間の好みを反映するモデル出力を改善する。
最も一般的なアライメントアプローチは、(i)強化学習であり、KL分割制約の下で期待される報酬を最大化する。
固定KL分割予算に対する最大期待報酬利得を導出することにより、KL正規化アライメントの情報理論的限界を特徴づける。
論文 参考訳(メタデータ) (2026-05-08T01:32:22Z) - Binary Rewards and Reinforcement Learning: Fundamental Challenges [7.106986689736826]
RLVRによる強化学習は、言語モデルにおける推論を改善するための標準的なアプローチとなっている。
二項報酬の性質を基礎としたこの現象の構造的説明を提供する。
論文 参考訳(メタデータ) (2026-05-04T09:17:26Z) - Wasserstein Distributionally Robust Regret Optimization for Reinforcement Learning from Human Feedback [11.841115170669012]
人間のフィードバック(RLHF)からの強化学習のための分布ロバストな後悔最適化(DRRO)を提案する。
DRROは、標準のDROのように最悪のケースの値を悲観する代わりに、最悪のケースの後悔を、同じ妥当な報酬摂動の下での最良のポリシーと比較して悲観的に表現する。
結果は、単純なサンプル結合解釈を持つ実用的なポリシー段階のアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2026-04-30T19:22:56Z) - Reinforcement Learning from Multi-Source Imperfect Preferences: Best-of-Both-Regimes Regret [71.69884486156359]
我々は, 累積的不完全化予算を用いて, エンフルティソースの不完全性選好からエピソードRLを考察した。
我々は,最良な登録行動を示す,後悔$tildeO(sqrtK/M+)$の統一アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-03-20T19:34:53Z) - Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - Provably Efficient Algorithms for S- and Non-Rectangular Robust MDPs with General Parameterization [85.91302339486673]
我々は、s-正方形および非正方形不確実性集合の下で、一般的な政策パラメータ化を伴うロバストマルコフ決定過程(RMDP)について検討する。
無限状態空間に拡張する一般政策パラメタライゼーションに対する新しいリプシッツ・リプシッツ・スムースネス特性を証明した。
本研究では,S-正方形不確かさに対する勾配降下アルゴリズムと非正方形不確かさに対するFrank-Wolfeアルゴリズムを設計する。
論文 参考訳(メタデータ) (2026-02-11T21:44:20Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Sharp Statistical Guarantees for Adversarially Robust Gaussian
Classification [54.22421582955454]
逆向きに頑健な分類の過剰リスクに対する最適ミニマックス保証の最初の結果を提供する。
結果はAdvSNR(Adversarial Signal-to-Noise Ratio)の項で述べられており、これは標準的な線形分類と逆数設定との類似の考え方を一般化している。
論文 参考訳(メタデータ) (2020-06-29T21:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。