論文の概要: OpenHLM: An Empirical Recipe for Whole-Body Humanoid Loco-Manipulation
- arxiv url: http://arxiv.org/abs/2606.22174v1
- Date: Sat, 20 Jun 2026 18:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 22:18:57.387747
- Title: OpenHLM: An Empirical Recipe for Whole-Body Humanoid Loco-Manipulation
- Title(参考訳): OpenHLM: 全体ヒューマノイドロコマニピュレーションの実証的レシピ
- Authors: Yingdong Hu, Haodong Zhu, Boyuan Zheng, Yihang Hu, Tong Zhang, Zunhao Chen, Junming Zhao, Ruiqian Nai, Yang Gao,
- Abstract要約: 全身のヒューマノイド・ロコ・マニピュレーションは、ロボットのキネマティック・チェーン全体を調整する必要がある。
私たちは、言語とピクセルを直接ヒューマノイドのすべての自由度にマッピングする、全身の視覚変化アクションモデルを構築します。
このロードマップに従ってOpenHLMは、全身のヒューマノイドロコ操作のためのオープンソースレシピである。
- 参考スコア(独自算出の注目度): 22.18805694472118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whole-body humanoid loco-manipulation requires coordinating the robot's entire kinematic chain. However, most existing systems typically decouple the upper and lower bodies into separate controllers, limiting such coordination and yielding behaviors similar to those of a wheeled dual-arm platform. In this paper, we ask what it takes to build a whole-body native vision-language-action (VLA) model that maps language and pixels directly to all of the humanoid's degrees of freedom. We conduct a systematic empirical study organized as a roadmap of one-variable-at-a-time experiments across three phases: whole-body teleoperation, VLA model design, and heterogeneous co-training. Our study yields several intriguing findings: a joint-based whole-body teleoperation interface outperforms alternatives that only partially expose the humanoid's degrees of freedom; a VLA pretrained on static and wheeled dual-arm platforms transfers surprisingly well to a humanoid's full action space; and co-training with HuMI, the humanoid analog of UMI, extends the policy to new objects and instructions without additional whole-body teleoperation on those targets. Following this roadmap yields OpenHLM, an open-source recipe for whole-body humanoid loco-manipulation. In a challenging long-horizon task that spans a wide vertical range of the humanoid, OpenHLM outperforms two state-of-the-art humanoid VLA baselines (GR00T N1.6 and $Ψ_0$) using less than half the total demonstration time. Our code, training data, and model checkpoints are available at [https://openhlm-project.github.io/].
- Abstract(参考訳): 全身のヒューマノイド・ロコ・マニピュレーションは、ロボットのキネマティック・チェーン全体を調整する必要がある。
しかし、既存のほとんどのシステムは、上と下を分離した制御器に分解し、そのような調整を制限し、車輪付きのデュアルアーム・プラットフォームと同様の動作を与える。
本稿では,言語とピクセルを直接ヒューマノイドのすべての自由度にマッピングする,全身の視覚-言語-アクション(VLA)モデルを構築する上で何が必要かを問う。
本研究は,全身遠隔操作,VLAモデル設計,異種協調訓練の3段階にわたる1変数・アット・アット・タイム実験のロードマップとして整理された系統的実証的研究を行う。
関節ベースの全身遠隔操作インタフェースは、部分的にヒューマノイドの自由度を露呈する代替手段よりも優れており、静的および車輪付きデュアルアームプラットフォーム上で事前訓練されたVLAは、驚くほどヒューマノイドのフルアクション空間に移行し、UMIのヒューマノイドアナログであるHuMIとの共同トレーニングは、これらの目標に対して全体遠隔操作を追加することなく、新しいオブジェクトや命令にポリシーを拡張している。
このロードマップに従ってOpenHLMは、全身のヒューマノイドロコ操作のためのオープンソースレシピである。
ヒューマノイドの広い垂直範囲にまたがる挑戦的な長距離タスクにおいて、OpenHLMは、実演時間の半分以下で2つの最先端のヒューマノイドVLAベースライン(GR00T N1.6 と $=0$)を上回ります。
私たちのコード、トレーニングデータ、モデルチェックポイントは[https://openhlm-project.github.io/]で利用可能です。
関連論文リスト
- ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video [52.78703020909145]
我々は、人間中心のビデオから直接、自然なヒューマノイドビジュモータ制御ポリシーを学ぶ新しいフレームワークであるZeroWBCを紹介した。
提案手法はまず視覚言語モデル(VLM)を微調整し,テキスト命令とエゴセントリックな視覚コンテキストに基づく将来の身体全体の動作を予測する。
ユニツリーG1ヒューマノイドロボットの実験では,動作の自然性と汎用性において,本手法がベースラインアプローチより優れていることが示された。
論文 参考訳(メタデータ) (2026-03-10T04:19:43Z) - ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation [55.467742403416175]
本稿では,大規模モーションキャプチャをヒューマノイドに変換する物理駆動型ニューラルネットワークを提案する。
我々は高密度参照とスパースタスク仕様の両方をサポートする統合マルチモーダルコントローラを学習する。
その結果,ULTRAは自我中心の知覚から,自律的,目標条件付き全体ロコ操作に一般化することが示された。
論文 参考訳(メタデータ) (2026-03-03T18:59:29Z) - HoMMI: Learning Whole-Body Mobile Manipulation from Human Demonstrations [15.551927664158695]
Whole-Body Mobile Manipulation Interface (HoMMI)は、ロボットのない人間のデモから直接、全身のモバイル操作を学習する。
我々は、モバイル操作に必要なグローバルコンテキストをキャプチャするために、エゴセントリックな感覚でUMIインタフェースを拡張する。
私たちはこのギャップを、クロス・エボディメント・ハンド・アイ・ポリシー設計で明示的に埋めます。
論文 参考訳(メタデータ) (2026-03-03T18:36:49Z) - Emergence of Human to Robot Transfer in Vision-Language-Action Models [88.76648919814771]
VLA(Vision-Language-action)モデルは、幅広いオープンワールドの一般化を可能にするが、大規模で多様なデータセットを必要とする。
VLAが十分なシーン、タスク、実施状況で事前訓練された後に、人間とロボットの移動が出現することを示す。
論文 参考訳(メタデータ) (2025-12-27T00:13:11Z) - TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System [79.48781507497769]
既存のヒューマノイド遠隔操作システムは、分離された制御を使用するか、高価なモーションキャプチャー装置に依存している。
本稿では,携帯型モキャップフリーなヒューマノイド遠隔操作・データ収集システムであるTWIST2を紹介する。
長軸的,移動的ヒューマノイドスキルを実証し,約100%の成功率で15分で100個のデモを収集できる。
論文 参考訳(メタデータ) (2025-11-04T18:58:35Z) - DemoHLM: From One Demonstration to Generalizable Humanoid Loco-Manipulation [29.519071338337685]
シミュレーションにおける1つのデモから,実ロボット上でのヒューマノイドロコ操作のためのフレームワークであるDemoHLMを提案する。
全身のコントローラーは、全身のモーションコマンドを関節トルクにマッピングし、ヒューマノイドロボットのための全方向移動手段を提供する。
実験では, 合成データ量と政策性能との間に正の相関が認められた。
論文 参考訳(メタデータ) (2025-10-13T10:49:40Z) - HumanoidVerse: A Versatile Humanoid for Vision-Language Guided Multi-Object Rearrangement [51.16740261131198]
視覚言語誘導型ヒューマノイド制御のための新しいフレームワークであるHumanoidVerseを紹介する。
HumanoidVerseは、自然言語命令と自我中心のカメラRGB観測のみでガイドされる複数のオブジェクトの連続的な操作をサポートする。
我々の研究は、現実の知覚的制約の下で複雑なシーケンシャルなタスクを実行できる、堅牢で汎用的なヒューマノイドエージェントに向けた重要なステップである。
論文 参考訳(メタデータ) (2025-08-23T08:23:14Z) - HOMIE: Humanoid Loco-Manipulation with Isomorphic Exoskeleton Cockpit [52.12750762494588]
本稿では,半自律遠隔操作システムHOMIEを紹介する。
ペダルにマッピングされた身体制御のための強化学習ポリシー、腕制御のための異形外骨格アーム、手操作のためのモーションセンシンググローブを組み合わせている。
このシステムは完全なオープンソースであり、デモとコードはhttps://homietele.org/.com/で見ることができる。
論文 参考訳(メタデータ) (2025-02-18T16:33:38Z) - OmniH2O: Universal and Dexterous Human-to-Humanoid Whole-Body Teleoperation and Learning [45.51662378032706]
我々は,全身型ヒューマノイド遠隔操作・自律学習システムOmniH2Oを提案する。
OmniH2Oは、キネマティックを普遍的な制御インターフェースとして使用することにより、人間の手によるフルサイズのヒューマノイドの制御を可能にする。
6つの日常的なタスクを含む最初のヒューマノイド全体制御データセットOmniH2O-6をリリースし、遠隔操作データセットからヒューマノイド全体スキル学習を実演する。
論文 参考訳(メタデータ) (2024-06-13T06:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。