論文の概要: OMG: Omni-Modal Motion Generation for Generalist Humanoid Control
- arxiv url: http://arxiv.org/abs/2606.10340v1
- Date: Tue, 09 Jun 2026 02:46:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:37.984519
- Title: OMG: Omni-Modal Motion Generation for Generalist Humanoid Control
- Title(参考訳): OMG:汎用ヒューマノイド制御のためのOmni-Modal Motion Generation
- Authors: Siqiao Huang, Kun-Ying Lee, Dongming Qiao, Guanqi He, Zhenyu Wang, Yitang Li, Shaoting Zhu, Hang Zhao,
- Abstract要約: 汎用ヒューマノイド制御の鍵は、リアクティブなモーショントラッキングシステムの上に、スケーラブルな脳を構築することだと我々は主張する。
汎用制御を実現するために大量の高品質なデータを取得すること,および構成的マルチモーダル入力の条件付け機能を備えたジェネレータを備えること,という2つの課題に対処する。
- 参考スコア(独自算出の注目度): 30.236954254902614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humanoid whole-body control has made significant progress in recent years, yet existing approaches remain limited to few-skill policies with heavy reward engineering, or motion trackers that are difficult to extend to new input modalities. We argue that the key to general-purpose humanoid control is to build a scalable brain, a module capable of reasoning with diverse conditioning modalities, atop a reactive motion tracking cerebellum, mirroring the hierarchical structure of biological motor systems. Two challenges arise in realizing this vision: acquiring a vast amount of high-quality data to achieve general purpose control, and equipping the generator with the capability to condition on compositional, extensible multi-modal inputs. We present OMG, which addresses these challenges with a meticulous data curation, filtering and labeling pipeline, as well as a diffusion-based motion generation backbone that conditions on language, audio, and human reference motions. Extensive experiments validate OMG as an omni-modal whole-body controller exhibiting state-of-the-art performance, model scaling behavior and efficient adaptation to new distributions and modalities, marking a concrete step toward foundation models for humanoid robots.
- Abstract(参考訳): 近年、ヒューマノイド全体の制御は大きな進歩を遂げているが、既存のアプローチは、大きな報酬工学を持つ少数スキルの政策や、新しい入力モダリティへの拡張が難しいモーショントラッカーに限られている。
汎用的なヒューマノイド制御の鍵は、多様な条件付きモーダルを推論できるモジュールであるスケーラブルな脳を構築することであり、生体運動系の階層構造を反映する反応性運動追跡小脳の上にある。
このビジョンを実現するには2つの課題がある: 汎用的な制御を実現するために大量の高品質なデータを取得することと、構成的で拡張可能なマルチモーダル入力を条件付ける能力を備えたジェネレータを装備することである。
我々は,これらの課題に,言語,音声,人間の参照動作を条件とした拡散型モーション生成バックボーンとともに,巧妙なデータキュレーション,フィルタリング,ラベリングパイプラインを用いて対処するOMGを提案する。
総合的な実験により、OMGは最先端性能、モデルスケーリングの挙動、新しい分布やモダリティへの効率的な適応を示す全モード全体制御系として評価され、ヒューマノイドロボットの基礎モデルに向けた具体的なステップとなる。
関連論文リスト
- M3imic: Learning a Versatile Whole-Body Controller for Multimodal Motion Mimicking [45.636871702422134]
Multi-Modal Mimicはヒューマノイドロボットのための汎用的な全身制御フレームワークである。
ロボットの関節角度、人間のポーズ軌跡、エンドエフェクターのポーズなど、異種動作参照モードを統一する。
モダリティ特異的なリトレーニングを伴わない、複数の運動基準モード間のシミュレート・トゥ・リアル転送を実現する。
論文 参考訳(メタデータ) (2026-06-03T12:52:37Z) - AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling [60.13338774249153]
我々はOmniHuMoを紹介した。OmniHuMoは5000時間以上の動作と320万のシーケンスのデータセットで、正確に整列されたマルチモーダルアノテーションである。
我々は、Residual FSQベースのモーショントークンーザとスケーラブルなマスク付きモデリング変換器を組み合わせた統合マルチモーダルフレームワークであるAnyMoを提案する。
実験の結果,AnyMoは空間特性とスタイリスティック特性の両方を柔軟に制御しながら高忠実度合成を実現することがわかった。
論文 参考訳(メタデータ) (2026-05-28T07:15:19Z) - ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation [66.02142169323521]
Vision-Language-ActionモデルとWorld Modelは最近、汎用ロボットインテリジェンスのための有望なパラダイムとして登場した。
既存のベンチマークは、主にシミュレータ中心であり、制御性を提供するが、知覚ノイズによって引き起こされる現実のギャップを捉えることができない。
シミュレーションと実世界の実行を橋渡しする標準化された評価フレームワークであるManipArenaを紹介する。
論文 参考訳(メタデータ) (2026-03-30T15:06:41Z) - ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation [55.467742403416175]
本稿では,大規模モーションキャプチャをヒューマノイドに変換する物理駆動型ニューラルネットワークを提案する。
我々は高密度参照とスパースタスク仕様の両方をサポートする統合マルチモーダルコントローラを学習する。
その結果,ULTRAは自我中心の知覚から,自律的,目標条件付き全体ロコ操作に一般化することが示された。
論文 参考訳(メタデータ) (2026-03-03T18:59:29Z) - PMG: Parameterized Motion Generator for Human-like Locomotion Control [14.637220434597168]
我々は,人間のような動きを1つの統合システムで生成するリアルタイムモーションジェネレータを開発した。
一つの統合システムにおいて、PMGは人間のような自然な動きを生じさせ、高次元の制御入力に正確に応答することを示す。
これらの結果は、自然かつ展開可能なヒューマノイド制御への実践的で実験的に検証された経路を確立する。
論文 参考訳(メタデータ) (2026-02-13T06:38:04Z) - OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis [70.39500621448383]
オープンワールドのモバイル操作タスクは、オープンエンドの命令や環境への一般化が必要なため、依然として課題である。
本稿では,多視点のシーンフレームとエージェント状態を維持した新しいマルチモーダルエージェントアーキテクチャを提案する。
我々は,グローバルなシーン理解,ロボットの状態追跡,マルチモーダルアクション生成を統一モデルで実現した,モバイルマニピュレータのための基礎モデルであるOWMM-VLMについて紹介する。
論文 参考訳(メタデータ) (2025-06-04T17:57:44Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。