論文の概要: EgoAERO: Learning Dexterous Manipulation from a Single Egocentric Video without Object Assets
- arxiv url: http://arxiv.org/abs/2606.08057v1
- Date: Sat, 06 Jun 2026 08:39:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.700356
- Title: EgoAERO: Learning Dexterous Manipulation from a Single Egocentric Video without Object Assets
- Title(参考訳): EgoAERO: オブジェクトアセットを使わずに単一のエゴセントリックビデオからデキステラスマニピュレーションを学習する
- Authors: Yichen Niu, Haoran Lv, Xinrui Zhang, Xueyao Wan, Shiyu Gao, Ying Ai, Hui Xu, Yongqi Hu, Hengyi Zhang, Yang Xie, Zhaxizhuoma, Yue Zhao, Zhenshan Bing, Yan Ding, Jianxing Liu,
- Abstract要約: EgoAEROは、オブジェクト資産なしで1つのエゴセントリックなRGB-D人間のデモから、巧妙な操作を学ぶ。
EgoAEROは、アセットレスオブジェクト追跡と再構築を通じて、接触一貫性のあるハンドオブジェクト軌跡を再構築する。
EgoDex-Rは4.3MのRGB-Dフレームを持つ大規模なエゴセントリックなデータセットである。
- 参考スコア(独自算出の注目度): 17.334975740648648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Egocentric RGB-D videos offer a natural source of human dexterous manipulation demonstrations, but existing data is difficult to use for robot learning because object pose, geometry, and contact information are often missing or require pre-scanned object assets. We present EgoAERO, the first framework that learns dexterous manipulation from a single egocentric RGB-D human demonstration without object assets. EgoAERO reconstructs contact-consistent hand-object trajectories through asset-free object tracking and reconstruction, ego motion compensation, and adaptive contact optimization, then converts them into robot policies using two-stage residual learning. We further introduce an online quality assessment mechanism and construct EgoDex-R, a large-scale egocentric dataset with 4.3M RGB-D frames for dexterous policy learning. Simulation and real-world experiments show that EgoAERO enables single-demonstration dexterous manipulation and achieves downstream performance close to CAD-based reconstructions on HOI4D.
- Abstract(参考訳): エゴセントリックなRGB-Dビデオは、人間の器用な操作デモの自然な情報源を提供するが、既存のデータは、オブジェクトのポーズ、幾何学、接触情報が欠落したり、事前にスキャンされたオブジェクトの資産を必要としたりするため、ロボット学習に使用するのは難しい。
EgoAEROは,オブジェクト資産を使わずに,一点の自我中心のRGB-D人間による擬似操作を学習する最初のフレームワークである。
EgoAEROは、アセットレス物体追跡・再構成、エゴ運動補償、適応接触最適化を通じて、接触一貫性のある物体軌道を再構成し、2段階の残差学習を用いてロボットポリシーに変換する。
さらに、オンライン品質評価機構を導入し、厳密なポリシー学習のための4.3M RGB-Dフレームを備えた大規模エゴセントリックデータセットであるEgoDex-Rを構築する。
シミュレーションおよび実世界の実験により,EgoAEROは1次元デキスタラス操作を可能にし,CADによるHOI4Dの再構成に近い下流性能を実現する。
関連論文リスト
- GRAIL: Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors [113.71148915419246]
GRAILは3Dアセット、シミュレーター対応シーン、およびビデオファンデーションモデル(VFM)の先行データで構成され、物理的環境を再構築したりロボットを遠隔操作したりすることなく対話を合成するデジタル生成パイプラインである。
GRAILは、オブジェクト形状、カメラパラメータ、メートル法スケール、環境深度、ロボットが提案する文字がビデオ生成の前に知られ、再構成中に再利用される、完全に定義された3D構成から始まる。
我々は、回復した動作をヒューマノイドロボットに再ターゲティングし、補完的なタスク・ジェネラル・モルフォロジー・トラッカーを訓練する。
GRAILは、ピックアップ、オブジェクト操作、着座にまたがる2万以上のシーケンスを生成する
論文 参考訳(メタデータ) (2026-06-03T17:57:45Z) - OCRA: Object-Centric Learning with 3D and Tactile Priors for Human-to-Robot Action Transfer [84.22494391514066]
OCRAはビデオベースのヒューマン・ロボット・アクション転送のためのフレームワークである。
人間のデモビデオから直接学習し、堅牢な操作を可能にする。
論文 参考訳(メタデータ) (2026-03-15T14:31:03Z) - Robust Egocentric Referring Video Object Segmentation via Dual-Modal Causal Intervention [58.05340906967343]
Egocentric Referring Video Object (Ego-RVOS)は、言語クエリで説明されているように、人間のアクションに積極的に関与する特定のオブジェクトを、一人称ビデオに分割することを目的としている。
既存の手法はしばしば苦労し、データセット内の歪んだオブジェクト-アクションのペアリングから急激な相関を学習する。
本稿では,強力なトレーニング済みRVOSをエゴセントリックドメインに適応させるプラグイン因果フレームワークであるCausal-Referring(CERES)を紹介する。
論文 参考訳(メタデータ) (2025-12-30T16:22:14Z) - EgoReAct: Egocentric Video-Driven 3D Human Reaction Generation [84.37917777533963]
EgoReActは,エゴセントリックな映像ストリームからリアルタイムに3Dアライメントされた人間の反応運動を生成する最初のフレームワークである。
EgoReAct は,従来の手法に比べて極めて高いリアリズム,空間整合性,生成効率を実現している。
論文 参考訳(メタデータ) (2025-12-28T06:44:05Z) - Developing Vision-Language-Action Model from Egocentric Videos [14.1517430035289]
エゴセントリックなビデオは、人間がオブジェクトやツールを操作する方法を捉え、オブジェクトの操作を学ぶための多様な動きの手がかりを提供する。
このようなビデオを利用してロボットのポリシーを訓練する以前の研究は、手動の詳細な記録のような補助的なアノテーションに依存していた。
本研究では,エゴセントリックビデオから6DoFオブジェクト操作トラジェクトリを抽出するフレームワークであるEgoScalerを活用することで,この問題に対処する。
論文 参考訳(メタデータ) (2025-09-26T07:09:33Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。
私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文 参考訳(メタデータ) (2024-06-03T07:58:40Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。