論文の概要: RGB: RL Guided Whole-Body MPPI for Humanoid Control
- arxiv url: http://arxiv.org/abs/2606.25123v1
- Date: Tue, 23 Jun 2026 19:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.131778
- Title: RGB: RL Guided Whole-Body MPPI for Humanoid Control
- Title(参考訳): RGB: RL Guided Whole-Body MPPI for Humanoid Control
- Authors: Yunsoo Seo, Sol Choi, Euncheol Im, Myo Taeg Lim, Yisoo Lee,
- Abstract要約: 本稿では,アドオンフィードバックコントローラとして機能するRLガイド付き全身モデル予測パス積分(MPPI)フレームワークを提案する。
提案手法は,同じコマンドインタフェース下での純粋RLベースライン上でのタスクレベル精度を向上させる。
- 参考スコア(独自算出の注目度): 2.854451361373021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humanoid robots require whole-body controllers that are both robust and precise in contact-rich environments. While deep reinforcement learning (RL) achieves robust stability, its behavior is tightly coupled to the training objective and command interface, making it difficult to add new feedback objectives without retraining. In this study, we propose an RL guided whole-body model predictive path integral (MPPI) framework that acts as an add-on feedback controller on top of a pretrained RL policy. Instead of using RL policy as the final controller, we use it as a sampling prior that biases MPPI rollouts toward dynamically feasible behaviors. Task objectives are specified through modular MPPI cost terms, and MPPI closes the loop by continuously correcting the RL prior online to satisfy these objectives without retraining the policy. Simulations on a 29-DoF Unitree G1 humanoid in MuJoCo demonstrate stable high-rate control (average 280~Hz). The proposed method improves task-level precision over a pure RL baseline under the same command interface. This is achieved by correcting systematic drift during straight walking and tracking additional whole-body reference signals imposed through the cost.
- Abstract(参考訳): ヒューマノイドロボットは、接触に富む環境において、堅牢かつ精密な全身コントローラーを必要とする。
深層強化学習(RL)は頑健な安定性を実現するが、その動作は訓練目標とコマンドインターフェースと密接に結びついており、再訓練なしに新たなフィードバック目標を追加することは困難である。
本研究では,事前訓練されたRLポリシー上に付加的なフィードバックコントローラとして機能する,RLガイド付き全身モデル予測パス積分(MPPI)フレームワークを提案する。
RLポリシを最終コントローラとして使用する代わりに、MPPIロールアウトを動的に実行可能な動作にバイアスするサンプリングとして使用する。
タスクの目的はモジュール的なMPPIコストの条件で指定され、MPPIはポリシーを再訓練することなく、これらの目的を満たすためにオンラインのRLを継続的に修正することでループを閉じる。
MuJoCoにおける29-DoFユニツリーG1ヒューマノイドのシミュレーションは、安定なハイレート制御(平均280~Hz)を示す。
提案手法は,同じコマンドインタフェース下での純粋RLベースライン上でのタスクレベル精度を向上させる。
これは、ストレートウォーキング中に体系的なドリフトを補正し、コストを通したボディ全体の参照信号を追跡することで達成される。
関連論文リスト
- RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization [65.23034604711489]
大規模な推論モデルをトレーニングするための自己改善フレームワークであるRLoopを紹介します。
RLoopはまず、RLを使用して所定のポリシからソリューション空間を探索し、成功したトラジェクトリをフィルタリングしてエキスパートデータセットを作成する。
実験の結果、RLoopsは一般化を忘れて大幅に改善し、平均精度は9%、pass@32はバニラRLに比べて15%以上向上した。
論文 参考訳(メタデータ) (2025-11-06T11:27:16Z) - M$^3$PC: Test-time Model Predictive Control for Pretrained Masked Trajectory Model [14.779390462893298]
本稿では,モデル予測制御(MPC)を用いて,モデル自体の予測能力を利用して行動選択を誘導する手法を提案する。
MPCは、追加パラメータトレーニングなしで事前訓練された軌道モデルの意思決定性能を著しく改善する。
私たちのフレームワークは、オフラインからオンライン(O2O)のRLやゴールリーチのRLに適応することができます。
論文 参考訳(メタデータ) (2024-12-07T14:44:22Z) - DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Robust Deep Reinforcement Learning for Quadcopter Control [0.8687092759073857]
本研究では、ロバスト・マルコフ決定プロセス(RMDP)を用いてドローン制御ポリシーを訓練する。
それは、ある環境から別の環境への政策移行の間の潜在的なギャップを扱うための悲観的な最適化を選択する。
訓練された制御ポリシーは、クワッドコプターの位置制御のタスクでテストされる。
論文 参考訳(メタデータ) (2021-11-06T16:35:13Z) - Pareto Deterministic Policy Gradients and Its Application in 5G Massive
MIMO Networks [32.099949375036495]
我々は,強化学習(RL)アプローチを用いて,セルロードバランスとネットワークスループットを協調的に最適化することを検討する。
RLの背景にある理論的根拠は、ユーザモビリティとネットワークのダイナミクスを解析的にモデル化することの難しさを回避することである。
この共同最適化を実現するために、ベクトル報酬をRL値ネットワークに統合し、別々のポリシーネットワークを介してRLアクションを実行する。
論文 参考訳(メタデータ) (2020-12-02T15:35:35Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。