論文の概要: Cooperative Long Rope Skipping via Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.08064v1
- Date: Sat, 06 Jun 2026 09:01:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.708674
- Title: Cooperative Long Rope Skipping via Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習による協調型ロングロープスキッピング
- Authors: Zihao Wang, Shijie Peng, Kerui Wu, Yu Huang, Ruiqi Xue, Dong Liu, Tian Xu, Lei Yuan, Yang Yu,
- Abstract要約: ロングロープのスキップには、2つのロープターナーが、異なるジャンプリズムの選手に適応しながら、協調的にロープを振る必要がある。
本論文では,複数のヒューマノイドロボットを用いた協調長ロープスキップのためのマルチエージェント強化学習フレームワークであるMaropeを提案する。
我々は,Unitree G1ヒューマノイドロボットに対するシミュレーションと実世界環境の両方におけるアプローチを評価した。
- 参考スコア(独自算出の注目度): 24.141546090585162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans exhibit remarkable motor agility, enabling a wide range of dynamic skills such as running and jumping, which highlights the great potential of humanoid robots for athletic locomotion. Among athletic sports, long rope skipping requires two rope turners to cooperatively swing the rope while adapting to a player under different jumping rhythms, making it a meaningful yet challenging task for humanoid robots. Although existing methods for humanoid sports have achieved success in single-agent and interaction-free settings, such as running, dancing, and parkour, task scenarios that require precise coordination among multiple participants remain largely unexplored. To this end, we propose Marope, a multi-agent reinforcement learning (MARL) framework for cooperative long rope skipping with multiple humanoid robots. Specifically, Marope adopts a hierarchical reinforcement learning framework for policy training. At the lower level, it learns decentralized rope manipulation policies through MARL, while at the upper level, a centralized scheduling policy is trained to coordinate the execution of the lower-level policies. To improve generalization across different player behavioral styles, Marope further incorporates diverse jumping policies into cooperative game training. We evaluate our approach on Unitree G1 humanoid robots in both simulation and real-world settings. Experimental results demonstrate that Marope outperforms various baselines, achieving more efficient and stable rope manipulation as well as more robust and adaptable cooperation with varied players.
- Abstract(参考訳): 人間は素晴らしい運動敏敏性を示し、ランニングやジャンプといった幅広いダイナミックスキルを可能にし、運動ロコモーションのためのヒューマノイドロボットの大きな可能性を強調している。
スポーツでは、縄跳びは2つのロープターナーが、異なるジャンプリズムの選手に適応しながらロープを協調的に振る必要があるため、ヒューマノイドロボットにとって有意義だが難しい課題である。
既存のヒューマノイドスポーツの手法は、ランニング、ダンス、パークールのような単一エージェントと相互作用のない環境では成功したが、複数の参加者間の正確な調整を必要とするタスクシナリオは、ほとんど探索されていないままである。
この目的のために,マルチエージェント強化学習(MARL)フレームワークであるMaropeを提案する。
特に、Maropeはポリシートレーニングに階層的な強化学習フレームワークを採用している。
低レベルでは、MARLを介して分散ロープ操作ポリシーを学習し、上層では、下層ポリシーの実行を調整するために集中的なスケジューリングポリシーを訓練する。
様々なプレイヤー行動スタイルの一般化を改善するために、Maropeはさらに多様なジャンプポリシーを協調ゲームトレーニングに取り入れている。
シミュレーションと実環境の両方において,Unitree G1ヒューマノイドロボットに対するアプローチを評価した。
実験により、マロペは様々なベースラインよりも優れ、より効率的で安定したロープ操作を実現し、様々なプレイヤーとのより堅牢で適応可能な協調を実現していることが示された。
関連論文リスト
- LadderMan: Learning Humanoid Perceptive Ladder Climbing [56.550077812088404]
textbfLadderManは、ヒューマノイドロボットが多様なはしごを強く登ることができる統一システムである。
当社の登山ポリシーはスケーラブルな2段階学習パイプライン上に構築されており、複数の登山専門家を学習するためにハイブリッドモーショントラッキングを使用します。
さらに、デュアルエージェントの定式化を用いて個別の操作ポリシーを訓練し、遠隔操作による安定した on-ladder 操作を可能にする。
論文 参考訳(メタデータ) (2026-06-04T08:47:08Z) - Perceptive Humanoid Parkour: Chaining Dynamic Human Skills via Motion Matching [77.28042137892943]
本稿では,人間型ロボットの長期的視覚的パーキングを自律的に行うためのモジュール型フレームワークであるPerceptive Humanoid Parkour(PHP)を提案する。
本研究は、これらの合成動作に対する運動追跡強化学習専門家の政策を訓練し、それらを深度に基づく多スキル学生政策に抽出する。
我々は,Unitree G1ヒューマノイドロボットを用いた実世界実験により,我々のフレームワークを検証した。
論文 参考訳(メタデータ) (2026-02-17T18:59:11Z) - Toward Real-World Cooperative and Competitive Soccer with Quadrupedal Robot Teams [18.20205072720915]
完全自律型・分散型四足ロボットサッカーを可能にする階層型マルチエージェント強化学習(MARL)フレームワークを提案する。
第一に、歩行、ドリブル、蹴りなどの足の動きやボール操作のために、非常にダイナミックな低レベルスキルのセットを訓練する。
これらに加えて、高レベルの戦略計画方針は、Fictitious Self-Playを介してマルチエージェント・プロキシ・ポリシー最適化(MAPPO)を用いて訓練される。
論文 参考訳(メタデータ) (2025-05-20T02:20:54Z) - Barkour: Benchmarking Animal-level Agility with Quadruped Robots [70.97471756305463]
脚付きロボットのアジリティを定量化するための障害物コースであるBarkourベンチマークを導入する。
犬の機敏性の競争に触発され、様々な障害と時間に基づくスコアリング機構から構成される。
ベンチマークに対処する2つの方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T02:49:43Z) - Robust and Versatile Bipedal Jumping Control through Reinforcement
Learning [141.56016556936865]
この研究は、トルク制御された二足歩行ロボットが実世界で頑丈で多目的なダイナミックジャンプを行えるようにすることで、二足歩行ロボットの機敏さの限界を推し進めることを目的としている。
本稿では,ロボットが様々な場所や方向へジャンプするなど,さまざまなジャンプタスクを達成するための強化学習フレームワークを提案する。
我々は,ロボットの長期入出力(I/O)履歴を符号化し,短期I/O履歴への直接アクセスを可能にする新しいポリシー構造を開発する。
論文 参考訳(メタデータ) (2023-02-19T01:06:09Z) - From Motor Control to Team Play in Simulated Humanoid Football [56.86144022071756]
我々は、現実的な仮想環境でサッカーをするために、物理的にシミュレートされたヒューマノイドアバターのチームを訓練する。
一連の段階において、プレイヤーはまず、現実的な人間のような動きを実行するために、完全に関節化された身体を制御することを学習する。
その後、ドリブルやシューティングといった中級のサッカーのスキルを身につける。
最後に、彼らは他の人を意識し、チームとしてプレーし、ミリ秒のタイムスケールで低レベルのモーターコントロールのギャップを埋める。
論文 参考訳(メタデータ) (2021-05-25T20:17:10Z) - Two-stage training algorithm for AI robot soccer [2.0757564643017092]
異種エージェントの学習性能を向上させるために,二段階多種集中訓練を提案する。
提案手法は,5対5のAIロボットサッカーを用いて検証を行う。
論文 参考訳(メタデータ) (2021-04-13T04:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。