論文の概要: LaGO: Latent Action Guidance for Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.24669v1
- Date: Tue, 23 Jun 2026 15:03:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.022373
- Title: LaGO: Latent Action Guidance for Online Reinforcement Learning
- Title(参考訳): LaGO: オンライン強化学習のための遅延アクションガイダンス
- Authors: Kuan-Yen Liu, Ren-Jyun Huang, Ti-Rong Wu,
- Abstract要約: 大規模言語モデル(LLM)は、計画とシーケンシャルな意思決定に強い可能性を示している。
以前の作業は、しばしば直接コントローラとして使用することに依存しており、正確なアクション生成を必要とし、実際は信頼できない。
本稿では,オンライン政策最適化をソフトガイドする前に,事前学習したLCMを潜時行動として用いるフレームワークであるLaGOを提案する。
- 参考スコア(独自算出の注目度): 5.380919781981028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown strong potential for planning and sequential decision-making, but prior work often relies on using them as direct controllers, which requires precise action generation and can be unreliable in practice. This paper proposes Latent Action Guidance for Online Reinforcement Learning (LaGO), a framework that uses a pretrained LLM as a latent action prior to softly guide online policy optimization, rather than treating the LLM as an explicit planner or controller. Experiments on both a discrete-control benchmark, CLEVR-Robot, and a continuous-control benchmark, Meta-World, demonstrate that LaGO consistently improves both reward and success rate over Vanilla PPO. In particular, LaGO increases the average success rate from 15.1% to 27.2% on CLEVR-Robot and from 2.7% to 15.2% on Meta-World. Our analysis further shows that stronger pretrained LLMs provide more effective guidance, suggesting that LLM knowledge can improve planning and online decision-making.
- Abstract(参考訳): 大規模言語モデル(LLM)は計画とシーケンシャルな意思決定の可能性を強く示してきたが、以前の作業は直接コントローラとして使うことに依存しており、これは正確なアクション生成を必要とし、実際は信頼できない。
本稿では,LLMを明示的なプランナーやコントローラとして扱うのではなく,オンラインポリシー最適化をソフトガイドする前に,事前学習したLCMを潜時行動として使用するフレームワークであるLaGOを提案する。
離散制御ベンチマークであるCLEVR-Robotと連続制御ベンチマークであるMeta-Worldの実験は、LaGOがバニラPPOよりも報酬と成功率の両方を一貫して改善していることを示している。
特にLaGOは、CLEVR-Robotでの平均成功率を15.1%から27.2%に、Meta-Worldで2.7%から15.2%に引き上げている。
分析の結果,LLMの知識が計画やオンライン意思決定を改善する可能性が示唆された。
関連論文リスト
- Jump-Start Reinforcement Learning with Vision-Language-Action Regularization [1.2599533416395767]
強化学習(RL)は、ロボット操作のための高周波閉ループ制御を可能にする。
現在の制限は、高速かつ正確な操作において直接の使用を妨げる。
探索と学習効率を向上させるために,VLAJS(Vision-Language-Action Jump-Starting)を提案する。
論文 参考訳(メタデータ) (2026-04-15T11:17:54Z) - RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models [58.83401587988675]
RoboAlignは視覚言語アクションモデル(VLA)を訓練し、マルチモーダル理解を低レベルのアクションに変換する。
我々のキーとなる考え方は、ゼロショット自然言語推論を用いてアクショントークンをサンプリングし、この推論を強化学習(RL)を用いて洗練し、アクション精度を向上させることである。
RoboAlignは、それぞれLIBERO、CALVIN、現実世界の環境におけるSFTベースラインよりも17.5%、18.9%、106.6%の性能向上を実現している。
論文 参考訳(メタデータ) (2026-03-22T17:57:55Z) - SCALAR: Learning and Composing Skills through LLM Guided Symbolic Planning and Deep RL Grounding [47.41195092283274]
LMベースのエージェントは、ハイレベルなアクションAPIを与えられた時に優れるが、低レベルな制御に言語を根ざすのに苦労する。
学習スキルライブラリを通じて、LLM計画とRLを結合する双方向フレームワークSCALARを紹介する。
Craftaxでは、SCALARは88.2%のダイヤモンドコレクションを達成し、最高のベースラインよりも1.9倍改善し、以前の手法が完全に失敗する時間の9.1%に到達した。
論文 参考訳(メタデータ) (2026-03-10T00:11:58Z) - AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering [52.67783579040657]
AceGRPOは、エージェントの学習フロンティアにおけるタスクを優先順位付けして学習効率を最大化する機械学習システムである。
我々のトレーニングされたAce-30Bモデルは、MLE-Bench-Lite上で100%有効な応募率を実現し、プロプライエタリなフロンティアモデルの性能にアプローチし、より大きなオープンソースベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-08T10:55:03Z) - Selective LLM-Guided Regularization for Enhancing Recommendation Models [7.406718588794206]
トレーニング可能なゲーティング機構がユーザ履歴の長さやアイテムの人気,モデルの不確実性によってLCMの信頼性が予測される場合にのみ,LCMに基づくペアワイズランキング管理を活性化する,モデルに依存しない効率的なフレームワークを提案する。
複数のデータセットにまたがる実験により、この選択的戦略は全体的な精度を一貫して改善し、コールドスタートとロングテールレジームにおいてかなりの利益をもたらし、世界的な蒸留ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2025-12-25T06:30:00Z) - A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - Understanding Forgetting in LLM Supervised Fine-Tuning and Preference Learning - A Convex Optimization Perspective [55.66517396157806]
オープンソースLLMのポストトレーニングにおいて広く採用されているアプローチは、SFTとRLHF/DPOのシーケンシャルな実行である。
これはSFTとRLHF/DPOのトレードオフの点において最適である。
本稿では,理論収束保証と逐次後学習フレームワークの性能を実証的に向上させる,実践的な後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-20T19:38:41Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [68.29746557968107]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - LgTS: Dynamic Task Sampling using LLM-generated sub-goals for
Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。
提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文 参考訳(メタデータ) (2023-10-14T00:07:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。