論文の概要: Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.06673v1
- Date: Thu, 04 Jun 2026 19:46:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.42117
- Title: Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning
- Title(参考訳): スパース・リワード強化学習のための不確実性を考慮したLCM誘導型ポリシー形成
- Authors: Ujjwal Bhatta, Utsabi Dangol, Sumaly Bajracharya, Rodrigue Rizk, KC Santosh,
- Abstract要約: 校正された大言語モデルを強化学習訓練ループに統合するフレームワークである,不確実性を考慮した LLM-Guided Policy Shaping (ULPS) を提案する。
ULPS は A* ベースのオラクルを用いて最適な記号軌道を合成し、BERT ベースの言語モデルを微調整する。
成功率、報酬効率、サンプルの複雑さを、無誘導、非校正、標準のRLベースラインで一貫した改善を観察する。
- 参考スコア(独自算出の注目度): 2.384534878752428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse rewards and heterogeneous task sequences remain persistent challenges in Reinforcement Learning (RL), often resulting in slow convergence, weak generalization, and inefficient exploration. We propose Uncertainty-Aware LLM-Guided Policy Shaping (ULPS), a novel framework that integrates a calibrated Large Language Model (LLM) into the RL training loop to provide structured, uncertainty-modulated behavioral guidance. ULPS employs an A*-based oracle to synthesize optimal symbolic trajectories, which are used to fine-tune a BERT-based language model. During training, this model supplies action suggestions whose influence is conditioned on epistemic uncertainty estimated via Monte Carlo (MC) dropout. An entropy-based blending mechanism adaptively balances LLM guidance and the learned policy (via Proximal Policy Optimization, PPO), allowing the agent to prioritize reliable priors while preserving adaptability. We evaluate ULPS on the MiniGridUnlockPickup benchmark and observe consistent improvements in success rate, reward efficiency, and sample complexity over unguided, uncalibrated, and standard RL baselines. ULPS achieves more than 9% improvement in execution accuracy after fine-tuning, requires fewer environment interactions, and yields higher reward AUC. Our results demonstrate that integrating symbolic A* trajectories, pretrained language priors, and uncertainty-aware control offers a principled and effective approach to multi-task reinforcement learning in sparse-reward domains, with potential extensibility to partially observable and multi-agent settings.
- Abstract(参考訳): スパース報酬とヘテロジニアスタスクシーケンスは、強化学習(RL)において永続的な課題であり、しばしば収束が遅く、一般化が弱く、探索が非効率的である。
本稿では,LLM(Large Language Model)をRLトレーニングループに統合し,構造化された不確実性を考慮した行動ガイダンスを提供する新しいフレームワークである,不確実性に配慮したLLM-Guided Policy Shaping(ULPS)を提案する。
ULPS は A* ベースのオラクルを用いて最適な記号軌道を合成し、BERT ベースの言語モデルを微調整する。
トレーニング中、このモデルはモンテカルロ(MC)ドロップアウトを通じて推定されるてんかんの不確実性に影響を及ぼすアクション提案を提供する。
エントロピーに基づくブレンディング機構は、LLMガイダンスと学習されたポリシー(PPO、Pximal Policy Optimization)を適応的にバランスさせ、エージェントが適応性を維持しながら信頼性の高い事前を優先順位付けできるようにする。
ULPSをMiniGridUnlockPickupベンチマークで評価し,無誘導,非校正,標準RLベースラインに対する成功率,報酬効率,サンプル複雑性の一貫した改善を観察した。
ULPSは、微調整後の実行精度を9%以上改善し、環境相互作用を少なくし、より高い報酬を与える。
この結果から,記号的A*軌道,事前学習言語,不確実性を考慮した制御は,疎逆領域におけるマルチタスク強化学習の原則的かつ効果的なアプローチであり,部分的に観察可能かつマルチエージェント設定に拡張できる可能性が示唆された。
関連論文リスト
- AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning [13.755500788361815]
強化学習(RL)は、大規模言語モデル(LLM)エージェントが環境と相互作用し、マルチターンタスクを解く能力を大幅に改善した。
既存のアプローチは、プロセス報酬モデルや補助的な自己監督信号など、密集した中間監視を導入することが多い。
本稿では、RLトレーニング中にエントロピーダイナミクスを適応的に調整し、探索・探索トレードオフを改善するための監督不要な信用割当手法であるAEMを提案する。
論文 参考訳(メタデータ) (2026-05-01T05:54:37Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - ASPO: Asymmetric Importance Sampling Policy Optimization [31.38346888572171]
ポジティブアドバンテージトークンのImportance Smpling(IS)比は不一致であり、正および負のトークンに対するアンバランストークン重み付けにつながる。
このミスマッチは、既に高確率のトークンを過剰に増幅しながら、低確率トークンの更新を抑制する。
我々は,IS比の正アドバンテージトークンを反転させるシンプルかつ効果的な戦略を用いた非対称的重要度サンプリングポリシー最適化(ASPO)を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:54:24Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。