論文の概要: UBP2: Uncertainty-Balanced Preference Planning for Efficient Preference-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.19328v2
- Date: Mon, 22 Jun 2026 15:12:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:14.782557
- Title: UBP2: Uncertainty-Balanced Preference Planning for Efficient Preference-based Reinforcement Learning
- Title(参考訳): UBP2: 効率的推論に基づく強化学習のための不確実性ベース推論計画
- Authors: Mohamed Nabail, Leo Kaixuan Cheng, Jingmin Wang, Nicholas Rhinehart,
- Abstract要約: 我々は、報酬、ダイナミクス、価値関数の不確実性について共同で推論することで、探索を積極的に指示するモデルに基づくアプローチを導入する。
提案手法であるUncertainty-Balanced Preference Planning (UBP2) では、報酬、ダイナミクス、値関数モデルのアンサンブルを用いて、候補軌道の評価を行う。
標準的な仮定の下では、有限ホライズンと無限ホライズンの設定の両方に対するサブ線形後悔保証を確立する。
- 参考スコア(独自算出の注目度): 4.276809570692494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference-based RL provides an approach to learning reward models from pairwise comparisons of behaviors, bypassing the need for explicit reward design. However, existing methods typically rely on passive data collection and suffer from poor sample efficiency, especially during the early stages of learning. We introduce a model-based approach that actively directs exploration by jointly reasoning over uncertainties in the reward, dynamics, and value functions. Our method, Uncertainty-Balanced Preference Planning (UBP2), uses ensembles of reward, dynamics, and value function models to evaluate candidate trajectories according to a unified score that combines expected reward, terminal value, and epistemic uncertainty. Planning under this objective yields an explicit tradeoff between exploitation and information acquisition without requiring ad hoc exploration heuristics. Under standard regularity assumptions, we establish sublinear regret guarantees for both finite-horizon and infinite-horizon settings. Empirically, experiments on the Meta-World benchmark show UBP2 achieves substantially higher sample efficiency than model-free preference-based methods and non-optimistic model-based baselines.
- Abstract(参考訳): 嗜好に基づくRLは、明示的な報酬設計の必要性を回避し、行動のペアワイズ比較から報酬モデルを学ぶアプローチを提供する。
しかし、既存の手法は一般的に受動的データ収集に依存しており、特に学習の初期段階においてサンプル効率の低下に悩まされている。
我々は、報酬、ダイナミクス、価値関数の不確実性について共同で推論することで、探索を積極的に指示するモデルに基づくアプローチを導入する。
提案手法であるUncertainty-Balanced Preference Planning (UBP2) は、期待される報酬、終末値、およびてんかんの不確実性を組み合わせた統一スコアに基づいて、報酬、ダイナミクス、値関数モデルのアンサンブルを用いて、候補軌道の評価を行う。
この目的の下での計画は、アドホックな探査ヒューリスティックを必要とせず、エクスプロイトと情報取得の間に明確なトレードオフをもたらす。
標準的な正則性仮定の下では、有限ホライズンと無限ホライズンの両方の設定に対する部分線型後悔保証を確立する。
実験的にMeta-Worldベンチマークの実験では、UPP2はモデルフリーの嗜好に基づく手法や最適化されていないモデルベースラインよりもはるかに高いサンプル効率を実現している。
関連論文リスト
- LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Diffusion Classifier-Driven Reward for Offline Preference-based Reinforcement Learning [45.95668702930697]
拡散選好に基づく報酬獲得法(DPR)を提案する。
DPRは、段階的嗜好に基づく報酬獲得を二項分類として直接扱い、拡散分類器の堅牢性を利用して段階的報酬を識別的に推測する。
また,Diffusion Preference-based Reward (C-DPR)を提案する。
論文 参考訳(メタデータ) (2025-03-03T03:49:38Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - $i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。
経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。
i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文 参考訳(メタデータ) (2024-05-24T05:42:11Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。