論文の概要: EgoPriMo: Egocentric Motion Generation for Interactive Humanoid Control
- arxiv url: http://arxiv.org/abs/2606.08495v1
- Date: Sun, 07 Jun 2026 07:49:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.145942
- Title: EgoPriMo: Egocentric Motion Generation for Interactive Humanoid Control
- Title(参考訳): EgoPriMo:対話型ヒューマノイド制御のためのエゴセントリックモーション生成
- Authors: Haoyang Ge, Peng Ren, Yukun Shi, Cong Huang, Kun Li, Kai Chen,
- Abstract要約: EgoPriMoはスケーラブルでインタラクティブなヒューマノイドモーションのフレームワークである。
SMPLベースのフルボディモーションを再構成し、生成し、予測する。
1つのチェックポイントは、UniEgoMotionよりもエゴセントリックなモーション生成を改善する。
- 参考スコア(独自算出の注目度): 19.169686105053433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humanoid robots require whole-body motions that adapt to scene context, task requirements, and user intent. Motion tracking reproduces specified trajectories, and humanoid vision-language-action systems provide semantic interfaces, but neither offers a scalable and interactive prior for broad full-body behavior. We introduce EgoPriMo (Egocentric Motion Prior for Humanoid Robots), a unified framework that learns such priors from egocentric human demonstrations. Given egocentric observations and a text prompt, EgoPriMo reconstructs, generates, and forecasts SMPL-based full-body motion. Language is used as a high-level control signal rather than a complete motion specification. At the core of EgoPriMo is a Triple-stream DiT that jointly models body dynamics, egocentric visual context, and text; task-conditioning masks route different tasks and missing-modality data through the same checkpoint. Experiments on Nymeria and EgoExo4D show that one checkpoint improves egocentric motion generation over UniEgoMotion while supporting reconstruction and forecasting; the generated SMPL motions can also be executed by a Unitree humanoid controller. These results indicate a practical path from scalable egocentric observations to generalizable and interactive humanoid motion priors.
- Abstract(参考訳): ヒューマノイドロボットはシーンコンテキスト、タスク要求、ユーザー意図に適応する全身の動きを必要とする。
モーショントラッキングは特定の軌跡を再現し、ヒューマノイドの視覚-言語-アクションシステムはセマンティックインタフェースを提供するが、広義の全身動作のためのスケーラブルでインタラクティブな事前を提供する。
EgoPriMo (Egocentric Motion Prior for Humanoid Robots, Egocentric Motion Prior for Humanoid Robots)を導入した。
エゴセントリックな観察とテキストプロンプトによって、EgoPriMoはSMPLベースのフルボディモーションを再構成し、生成し、予測する。
言語は完全なモーション仕様ではなく、ハイレベルな制御信号として使用される。
EgoPriMoの中核は、ボディダイナミクス、エゴセントリックな視覚コンテキスト、テキストを共同でモデル化するトリプルストリームのDiTである。
Nymeria と EgoExo4D の実験では,UniEgoMotion 上でのエゴセントリックな動作生成が再現と予測をサポートしながら向上していることが示されている。
これらの結果は、スケーラブルな自我中心の観測から、一般化可能な対話型ヒューマノイド運動への実践的な道のりを示している。
関連論文リスト
- EggHand: A Multimodal Foundation Model for Egocentric Hand Pose Forecasting [11.687067206676625]
EggHandは、エゴセントリックな手ポーズ予測のための基盤モデルベースのフレームワークである。
動的モーションモデリングとマルチモーダルなセマンティック推論を統一する。
提案手法は,エゴモーション下でのジェネリックビジュアルエンコーダの脆さを克服する。
論文 参考訳(メタデータ) (2026-05-08T12:09:27Z) - EgoMotion: Hierarchical Reasoning and Diffusion for Egocentric Vision-Language Motion Generation [74.07852250099559]
Egocentric Vision-Language (Ego-VL) モーション生成について検討する。
本課題は,1対1の視覚的観察と自然言語の指示を併用した3次元人間の動作を合成することである。
この課題に対処するために,階層型生成フレームワーク textbfEgoMotion を提案する。
論文 参考訳(メタデータ) (2026-04-21T05:31:06Z) - ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video [52.78703020909145]
我々は、人間中心のビデオから直接、自然なヒューマノイドビジュモータ制御ポリシーを学ぶ新しいフレームワークであるZeroWBCを紹介した。
提案手法はまず視覚言語モデル(VLM)を微調整し,テキスト命令とエゴセントリックな視覚コンテキストに基づく将来の身体全体の動作を予測する。
ユニツリーG1ヒューマノイドロボットの実験では,動作の自然性と汎用性において,本手法がベースラインアプローチより優れていることが示された。
論文 参考訳(メタデータ) (2026-03-10T04:19:43Z) - EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models [31.768426199719816]
EgoActingは,高レベルの指示を様々な,正確に,空間的に認識されたヒューマノイド行動に直結させることが要求される。
さらに,ロコモーションプリミティブを予測可能な,統一的でスケーラブルな視覚言語モデル(VLM)であるEgoActorを導入することで,このタスクをインスタンス化する。
我々は,実世界の実演,空間的推論質問応答,シミュレートされた環境デモンストレーションから,エゴセントリックなRGBのみのデータに対する広範囲の監視を活用している。
論文 参考訳(メタデータ) (2026-02-04T13:04:56Z) - PlayerOne: Egocentric World Simulator [73.88786358213694]
PlayerOneは、最初のエゴセントリックなリアルワールドシミュレータである。
それは、エゴセントリックなビデオを生成し、エゴセントリックなカメラで捉えたユーザーの実際のシーンの人間の動きと厳密に一致している。
論文 参考訳(メタデータ) (2025-06-11T17:59:53Z) - EgoM2P: Egocentric Multimodal Multitask Pretraining [55.259234688003545]
大規模なエゴセントリックなマルチモーダルモデルとマルチタスクモデルの構築は、ユニークな課題を示している。
EgoM2Pは、時間的に認識されたマルチモーダルトークンから学習し、エゴセントリックな4D理解のための大規模な汎用モデルをトレーニングするマスク付きモデリングフレームワークである。
私たちはEgoM2Pを完全にオープンソース化し、コミュニティを支援し、エゴセントリックなビジョン研究を前進させます。
論文 参考訳(メタデータ) (2025-06-09T15:59:25Z) - Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration [28.825612240280822]
本稿では,言語理解,エゴセントリックなシーン認識,モーションコントロールを統合し,普遍的なヒューマノイド制御を実現する新しいフレームワークを提案する。
Humanoid-VLAは、テキスト記述と組み合わせた非エゴセントリックな人間の動きデータセットを使用して、言語運動の事前アライメントから始まる。
そして、パラメータを効率よくビデオコンディショニングすることで、エゴセントリックな視覚コンテキストを取り入れ、コンテキスト認識モーション生成を可能にする。
論文 参考訳(メタデータ) (2025-02-20T18:17:11Z) - Ego-Body Pose Estimation via Ego-Head Pose Estimation [22.08240141115053]
エゴセントリックなビデオシーケンスから3次元の人間の動きを推定することは、人間の行動理解において重要な役割を担い、VR/ARに様々な応用がある。
Ego-Head Pose Estimation (EgoEgo) と呼ばれる新しい手法を提案する。
この頭と体のポーズのゆがみは、ペア化されたエゴセントリックなビデオと3D人間の動きでデータセットをトレーニングする必要をなくす。
論文 参考訳(メタデータ) (2022-12-09T02:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。