論文の概要: MARCH: Model-Assisted Reinforcement Learning for the Perceptive Control of Humanoids over Sparse Footholds
- arxiv url: http://arxiv.org/abs/2606.10288v1
- Date: Tue, 09 Jun 2026 01:21:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:37.97238
- Title: MARCH: Model-Assisted Reinforcement Learning for the Perceptive Control of Humanoids over Sparse Footholds
- Title(参考訳): MARCH: モデル支援強化学習による疎域におけるヒューマノイドの知覚制御
- Authors: Codrin Crismariu, Ryan K. Cosner,
- Abstract要約: 両視点を3段階に組み合わせたモデル支援強化学習(RL)フレームワークを提案する。
このモデル支援手法により, 物理的に座屈した移動が生成され, 試料効率が向上することを示す。
両足の足場を横方向の制約で移動させるユニツリーG1ヒューマノイドロボットの展開を実演した。
- 参考スコア(独自算出の注目度): 2.3940819037450987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perceptive bipedal locomotion over sparse terrain remains a difficult challenge: model-based methods are precise but brittle to uncertainty, while model-free methods are robust but struggle to discover the precise, constrained motions required for safety-critical locomotion where small errors can cause catastrophic failures. We propose a model-assisted reinforcement learning (RL) framework that combines both perspectives in three steps: (1) generate a safe reference trajectory using simplified models; (2) train a privileged teacher policy guided by a control Lyapunov function (CLF) reward built around the safe reference trajectory; and (3) distill the teacher into a vision-based student policy. We show that this model-assistance procedure produces physically grounded locomotion, improving sample efficiency, reducing the need for a complex learning curriculum, and achieving smoother locomotion behavior alongside stepping stone performance comparable to model-free baselines. We validate our approach in simulation and demonstrate successful deployment on a Unitree G1 humanoid robot navigating sparse footholds with lateral constraints.
- Abstract(参考訳): モデルベース法は正確だが不確実性には弱いが、モデルフリー法は堅牢だが、小さなエラーが破滅的な失敗を引き起こすような安全クリティカルな運動に必要な正確で制約された動きを見つけるのに苦労している。
モデル支援強化学習(RL)フレームワークは,(1)簡易モデルを用いた安全基準軌道の生成,(2)安全基準軌道を中心に構築された制御リャプノフ関数(CLF)報酬によって指導される特権教師政策の訓練,(3)教師を視覚ベースの学生政策に蒸留する3つのステップで両視点を組み合わせたものである。
本研究では, このモデル支援手法により, 物理的に接地された移動が生成され, サンプル効率が向上し, 複雑な学習カリキュラムの必要性が軽減され, モデルフリーベースラインに匹敵するステップストーン性能とともに, よりスムーズな移動動作が達成されることを示す。
本手法をシミュレーションで検証し,片足足の足場を横方向の制約で移動させるUnitree G1ヒューマノイドロボットへの展開を成功例に示す。
関連論文リスト
- Efficiently Learning Robust Torque-based Locomotion Through Reinforcement with Model-Based Supervision [14.246416873754905]
モデルに基づく二足歩行と残留強化学習を統合した制御フレームワークを提案する。
提案手法は, ランダム化条件におけるロバスト性の向上と一般化を実証する。
論文 参考訳(メタデータ) (2026-01-22T16:56:52Z) - Walk the PLANC: Physics-Guided RL for Agile Humanoid Locomotion on Constrained Footholds [20.44610499489492]
二足歩行ロボットは、制約された足場に移動する際にバランス、タイミング、接触決定を調整する必要がある。
本稿では,低次ステッピングプランナが動的に一貫した運動目標を供給できるロコモーションフレームワークを提案する。
この構造化されたステップ計画とデータ駆動型適応の組み合わせは、ヒューマノイドロボット上で正確で、アジャイルで、ハードウェアで検証されたステップストーンの移動を生み出す。
論文 参考訳(メタデータ) (2026-01-09T19:56:42Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Action Flow Matching for Continual Robot Learning [54.10050120844738]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。
本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。
ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文 参考訳(メタデータ) (2025-04-25T16:26:15Z) - Dynamic Obstacle Avoidance with Bounded Rationality Adversarial Reinforcement Learning [5.760394464143113]
本稿では,障害物を敵エージェントとしてモデル化するトレーニングプロセスにより,ロバスト性のあるナビゲーションポリシーを実現する新しい手法を提案する。
我々はこの手法を、量子応答適応強化学習(Hi-QARL)による多元的ポリシーと呼ぶ。
論文 参考訳(メタデータ) (2025-03-14T14:54:02Z) - Differentiable Information Enhanced Model-Based Reinforcement Learning [48.820039382764]
差別化可能な環境は、豊かな差別化可能な情報を提供することで、コントロールポリシーを学習する新たな可能性を秘めている。
モデルベース強化学習(MBRL)法は、基礎となる物理力学を回復するために、識別可能な情報のパワーを効果的に活用する可能性を示す。
しかし,2つの主要な課題は,1)より高精度な動的予測モデルの構築と,2)政策訓練の安定性の向上である。
論文 参考訳(メタデータ) (2025-03-03T04:51:40Z) - DTC: Deep Tracking Control [16.2850135844455]
本研究では,両世界の強靭性,フット配置精度,地形の一般化を両世界の利点と組み合わせたハイブリッド制御アーキテクチャを提案する。
深層ニューラルネットワークポリシは、最適化された足場を追跡することを目的として、シミュレーションでトレーニングされている。
モデルベースに比べて滑りやすい地盤や変形可能な地盤が存在する場合の強靭性を示す。
論文 参考訳(メタデータ) (2023-09-27T07:57:37Z) - An Adaptable Approach to Learn Realistic Legged Locomotion without
Examples [38.81854337592694]
本研究は,バネ装荷逆振り子モデルを用いて学習プロセスを導くことで,移動における現実性を保証するための汎用的アプローチを提案する。
モデルのない設定であっても、2足歩行ロボットと4足歩行ロボットに対して、学習したポリシーが現実的でエネルギー効率のよい移動歩行を生成できることを示す実験結果を示す。
論文 参考訳(メタデータ) (2021-10-28T10:14:47Z) - Reinforcement Learning for Robust Parameterized Locomotion Control of
Bipedal Robots [121.42930679076574]
シミュレーションにおけるロコモーションポリシをトレーニングするためのモデルフリー強化学習フレームワークを提案する。
ドメインランダム化は、システムダイナミクスのバリエーションにまたがる堅牢な振る舞いを学ぶためのポリシーを奨励するために使用されます。
本研究では、目標歩行速度、歩行高さ、旋回ヨーなどの多目的歩行行動について示す。
論文 参考訳(メタデータ) (2021-03-26T07:14:01Z) - Bridging Imagination and Reality for Model-Based Deep Reinforcement
Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。
虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。
提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T03:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。