論文の概要: EgoEngine: From Egocentric Human Videos to High-Fidelity Dexterous Robot Demonstrations
- arxiv url: http://arxiv.org/abs/2606.12604v1
- Date: Wed, 10 Jun 2026 19:01:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.419412
- Title: EgoEngine: From Egocentric Human Videos to High-Fidelity Dexterous Robot Demonstrations
- Title(参考訳): EgoEngine:人間中心の動画から高精細度デクスタースロボットデモまで
- Authors: Yangcen Liu, Shuo Cheng, Xinchen Yin, Woo Chul Shin, Alfred Cueva, Yiran Yang, Zhenyang Chen, Chuye Zhang, Danfei Xu,
- Abstract要約: EgoEngineは、エゴセントリックな人間の操作ビデオから高忠実度ロボットデータに変換するためのフレームワークである。
EgoEngineは人間ビデオのロボットデータへのスケーラブルな変換を可能にしており、私たちの知る限り、エゴセントリックな人間ビデオから学習した初めてのゼロショットヴィジュモータなポリシーを実証している。
- 参考スコア(独自算出の注目度): 12.604831042368078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dexterous manipulation is limited by the cost of collecting large-scale robot demonstrations. Egocentric human videos offer a scalable source of diverse manipulation behaviors, but directly using them for robot learning requires bridging two gaps: the visual gap between human and robot observations, and the action gap between human motion and robot-executable action. We propose EgoEngine, a scalable framework for transforming egocentric human manipulation videos into high-fidelity robot data. Given an egocentric RGB video, EgoEngine produces: (i) a high-fidelity robot observation video replacing human with robot while preserving scene context and temporal alignment, and (ii) a task-aligned, executable robot action trajectory under feasibility constraints. Experiments in simulation and on real robots show that EgoEngine enables scalable conversion of human videos into robot data and, to our knowledge, demonstrates the first zero-shot visuomotor dexterous policy learning from egocentric human videos without real-robot demonstrations. Project website: https://egoengine.github.io.
- Abstract(参考訳): 有害な操作は、大規模なロボットデモの収集コストによって制限される。
エゴセントリックな人間のビデオは、多様な操作行動のスケーラブルなソースを提供するが、ロボット学習にそれらを直接使用するには、人間とロボットの間の視覚的ギャップと、人間の動きとロボット実行可能なアクションの間のアクションギャップの2つのギャップを埋める必要がある。
我々は,エゴセントリックな人間の操作映像を高忠実度ロボットデータに変換するスケーラブルなフレームワークであるEgoEngineを提案する。
エゴ中心のRGBビデオを見ると、EgoEngineは以下のようになる。
(i)シーンコンテキストと時間的アライメントを保ちながら、人間をロボットに置き換えた高忠実度ロボット観察ビデオ
(II) 実現可能性制約下でのタスク整合型実行可能なロボット動作軌跡。
シミュレーションと実際のロボットを用いた実験により、EgoEngineは人間の動画をロボットデータにスケーラブルに変換できることを示した。
プロジェクトウェブサイト: https://egoengine.github.io.com
関連論文リスト
- HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos [58.9564236347451]
HumanEgoは、人間とロボットのエンボディメントギャップを橋渡しするフレームワークである。
それは、人間のデモを、手動オブジェクトの相互作用の実体レベルの表現へと持ち上げる。
HumanEgoは、ロボットのデータフリー、ハードウェア非依存、データ効率、ゼロショットの人間とロボットの転送を可能にする。
論文 参考訳(メタデータ) (2026-05-24T08:26:41Z) - H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos [58.006918399913665]
本稿では,通常の人間と物体のインタラクションビデオからモーション一貫性のあるロボット操作ビデオに変換するビデオ間翻訳フレームワークを提案する。
私たちのアプローチでは、ロボットビデオのセットのみをトレーニングするために、ペアの人間ロボットビデオは必要とせず、システムを拡張しやすくしています。
テスト時にも同じプロセスを人間のビデオに適用し、人間の行動を模倣する高品質なロボットビデオを生成する。
論文 参考訳(メタデータ) (2025-12-10T07:59:45Z) - EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos [49.820119587446655]
本稿では,エゴセントリックな人間ビデオを用いたVLA(Vision-Language-Action)モデルのトレーニングについて検討する。
人間の手首と手の動きを予測する人間のビデオに基づいて訓練されたVLAによって、私たちはInverse Kinematicsを実行し、人間のアクションをロボットアクションに変換することができる。
シミュレーションベンチマークであるEgo Humanoid Manipulation Benchmarkを提案する。
論文 参考訳(メタデータ) (2025-07-16T17:27:44Z) - EgoZero: Robot Learning from Smart Glasses [54.6168258133554]
EgoZeroはProject Ariaスマートグラスで捉えた人間のデモから堅牢な操作ポリシーを学ぶ。
EgoZeroのポリシーをFranka Pandaロボットにデプロイし、7つの操作タスクに対して70%の成功率でゼロショット転送を実演する。
この結果から,実世界におけるロボット学習のためのスケーラブルな基盤として,現在地にある人間のデータを活用できることが示唆された。
論文 参考訳(メタデータ) (2025-05-26T17:59:17Z) - Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers [36.497624484863785]
Vid2Robotは、人間のビデオで操作タスクを入力として表現し、ロボットアクションを生成する、エンドツーエンドのビデオ条件付きポリシーである。
我々のモデルは、ビデオから人間とロボットのアクションの統一表現を学習するために、プロンプトロボット軌道対の大規模なデータセットを用いて訓練されている。
実世界のロボット上でのVid2Robotの評価を行い、人間のプロンプトビデオを用いた場合、BC-Zよりも20%以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-19T17:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。