論文の概要: Predictive Style Matching: Natural and Robust Humanoid Locomotion
- arxiv url: http://arxiv.org/abs/2606.07083v1
- Date: Fri, 05 Jun 2026 09:21:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.66648
- Title: Predictive Style Matching: Natural and Robust Humanoid Locomotion
- Title(参考訳): 予測型マッチング:自然とロバストなヒューマノイドロコモーション
- Authors: Simeon Nedelchev, Ekaterina Chaikovskaia, Egor Davydenko, Eduard Zaliaev, Roman Gorbachev,
- Abstract要約: 予測スタイルマッチング(Predictive Style Matching)は、ロボットの低体状態履歴と速度コマンドを、上体関節と歩行目標の解釈にマッピングする。
ユニツリーG1では、シミュレーションとハードウェアの両方において、PSMはタスクのみのRLよりも、およそ1桁の精度で上半身スタイルの誤差を低減する。
- 参考スコア(独自算出の注目度): 0.2348805691644085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has become the prevailing approach to humanoid locomotion control: policies transfer reliably from simulation to hardware and recover gracefully from disturbances. Motion quality, however, still lags behind: task-only rewards often converge to stiff, asymmetric gaits, while motion imitation methods improve appearance but become more sensitive to external disturbances because reference signals can oppose the transient poses needed to regain balance. We propose Predictive Style Matching, in which an offline predictor maps the robot's lower-body state history and velocity commands to interpretable upper-body joint and gait targets that shape the rewards during training. Because the targets are state-conditioned rather than time-indexed and the predictor is used only at training time, the deployed controller inherits the proprioceptive interface and inference cost of a task-only RL baseline. On the Unitree G1, in both simulation and hardware, PSM reduces upper-body style error by roughly an order of magnitude over task-only RL while preserving its fall-recovery rate, whereas the motion-imitation baseline attains the lowest style error but fails to recover from disturbances about five times as often.
- Abstract(参考訳): 強化学習は、シミュレーションからハードウェアへ確実に移行し、障害から優雅に回復するという、ヒューマノイド移動制御に対する一般的なアプローチとなっている。
タスクのみの報酬は、しばしば硬く非対称な歩行に収束するが、モーション模倣法は外観を改善するが、バランスを取り戻すのに必要な過渡的なポーズに対して参照信号が反対するので、外部の障害に対してより敏感になる。
オフライン予測器は,ロボットの下半身の状態履歴と速度コマンドを,トレーニング中の報酬を形作る上半身関節および歩行目標にマッピングする。
ターゲットはタイムインデックスではなくステートコンディショニングされており、トレーニング時にのみ予測器が使用されるため、デプロイされたコントローラは、タスクのみのRLベースラインのプロノセプティブインターフェースと推論コストを継承する。
ユニツリーG1では、シミュレーションとハードウェアの両方において、PSMは、ダウン-リカバリ率を維持しながらタスクのみのRLよりもおよそ1桁上体スタイルの誤差を減少させるが、モーション・イミテーションのベースラインは最も低いスタイルのエラーを達成できるが、乱れから約5倍の頻度で回復できない。
関連論文リスト
- MorFiC: Fixing Value Miscalibration for Zero-Shot Quadruped Transfer [50.54752207285298]
異なる形態を持つ四足歩行ロボット間で学習された移動ポリシーを一般化することは、依然として課題である。
単一共有ポリシを用いたゼロショットクロスモルフォロジーロコモーションのための強化学習手法であるMorFiCを提案する。
また,MorFiCは,形態素間の値予測誤差の分散を低減し,有利な推定値を安定化することを示した。
論文 参考訳(メタデータ) (2026-03-15T19:03:34Z) - Embedding Classical Balance Control Principles in Reinforcement Learning for Humanoid Recovery [1.0883174135300417]
人間は転倒や回復不能な障害状態に対して脆弱であり、非構造化環境での実用性を制限する。
古典的バランス指標を埋め込むことにより、この制限に対処する統一的なRLポリシーを提案する。
このポリシーは、ランダム化された初期ポーズと記述されていないフォール設定で93.4%のリカバリ率を達成する。
論文 参考訳(メタデータ) (2026-03-09T17:02:30Z) - ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation [55.467742403416175]
本稿では,大規模モーションキャプチャをヒューマノイドに変換する物理駆動型ニューラルネットワークを提案する。
我々は高密度参照とスパースタスク仕様の両方をサポートする統合マルチモーダルコントローラを学習する。
その結果,ULTRAは自我中心の知覚から,自律的,目標条件付き全体ロコ操作に一般化することが示された。
論文 参考訳(メタデータ) (2026-03-03T18:59:29Z) - Robust and Generalized Humanoid Motion Tracking [17.58241987932198]
一般的なヒューマノイド全体制御器の学習は、ロボット領域に移動された後、実用的な参照動作がノイズや不整合を示す可能性があるため、困難である。
本稿では,因果的時間的エンコーダを用いた動的条件付きコマンドアグリゲーションフレームワークの提案と,コンテキストウィンドウを選択的に集約するマルチヘッド・クロスアテンション・コマンドエンコーダを提案する。
提案手法は多種多様な参照入力と挑戦的な動作条件の下で評価され,無見えない動作へのゼロショット転送と,物理的ヒューマノイドロボットへのロバストなシミュレート・トゥ・リアル転送が実証された。
論文 参考訳(メタデータ) (2026-01-30T15:27:43Z) - Task-Centric Policy Optimization from Misaligned Motion Priors [5.008550719179743]
共等目的ではなく条件付き正規化器として模倣を扱うタスクプライオリティ逆模倣フレームワークを提案する。
我々は,勾配の衝突とタスクプライオリティの定常点の理論解析を行い,ヒューマノイド制御実験による評価を行った。
論文 参考訳(メタデータ) (2026-01-27T09:46:34Z) - Walk the PLANC: Physics-Guided RL for Agile Humanoid Locomotion on Constrained Footholds [20.44610499489492]
二足歩行ロボットは、制約された足場に移動する際にバランス、タイミング、接触決定を調整する必要がある。
本稿では,低次ステッピングプランナが動的に一貫した運動目標を供給できるロコモーションフレームワークを提案する。
この構造化されたステップ計画とデータ駆動型適応の組み合わせは、ヒューマノイドロボット上で正確で、アジャイルで、ハードウェアで検証されたステップストーンの移動を生み出す。
論文 参考訳(メタデータ) (2026-01-09T19:56:42Z) - RobotDancing: Residual-Action Reinforcement Learning Enables Robust Long-Horizon Humanoid Motion Tracking [50.200035833530876]
RobotDancingはシンプルでスケーラブルなフレームワークで、残留する関節の目標を予測して、ダイナミックスの不一致を明示的に修正する。
複数分間の高エネルギー動作(ジャンプ、スピン、カートホイール)をトラッキングし、高いモーショントラッキング品質のハードウェアにゼロショットをデプロイする。
論文 参考訳(メタデータ) (2025-09-25T03:30:34Z) - Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations [98.5802673062712]
我々は時間的に結合した摂動を導入し、既存の頑健な強化学習手法に挑戦する。
本稿では、時間的に結合したロバストなRL問題を部分的に観測可能な2プレイヤーゼロサムゲームとして扱う新しいゲーム理論であるGRADを提案する。
論文 参考訳(メタデータ) (2023-07-22T12:10:04Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。