論文の概要: EgoInfinity: A Web-Scale 4D Hand-Object Interaction Data Engine for Any-View Robot Retargeting and Video-to-Action Robot Learning
- arxiv url: http://arxiv.org/abs/2606.17385v2
- Date: Fri, 19 Jun 2026 08:44:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-23 13:41:30.9201
- Title: EgoInfinity: A Web-Scale 4D Hand-Object Interaction Data Engine for Any-View Robot Retargeting and Video-to-Action Robot Learning
- Title(参考訳): EgoInfinity:Webスケールの4Dハンドオブジェクトインタラクションデータエンジン
- Authors: Gaotian Wang, Kejia Ren, Andrew Morgan, Yiting Chen, Howard H. Qian, Podshara Chanrungmaneekul, Kaiyu Hang,
- Abstract要約: EgoInfinityは、ロボットの獲得と学習のためのWebスケールデータ生成を可能にする、汎用的な4Dハンドオブジェクトインタラクションデータエンジンである。
EgoInfinity(エゴインフィニティ)は、知覚、セグメンテーション、再構築、相互認識の洗練、そして従来の計算不可能なビデオ対アクション問題を自動化するための、モジュール式エンジンである。
- 参考スコア(独自算出の注目度): 10.780924973366737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Internet videos constitute the largest reservoir of embodied human manipulation knowledge, yet converting arbitrary RGB footage into actionable robot training data remains a major bottleneck. Existing lab- or factory-collected datasets are narrow in scale and diversity, limiting open-world robot learning. Instead of proposing a static dataset, we introduce EgoInfinity, a universal 4D hand-object interaction data engine that enables web-scale data generation for robot retargeting and learning. EgoInfinity is a modular engine integrating perception, segmentation, reconstruction, interaction-aware refinement, and retargeting to automate this traditionally unscalable video-to-action problem without human-in-the-loop annotation. Its modular design lets the engine continuously benefit from advances in any incorporated component. With EgoInfinity, in-the-wild human manipulation videos are lifted into agent-agnostic, metric 4D hand-object representations, including hand trajectories, 6-DoF object poses, and contact-relevant states. Rather than naively connecting standalone components, EgoInfinity combines cross-module metric calibration with interaction-aware refinement to improve physical reliability, reducing drift and contact inconsistencies common in pure visual reconstruction. We further propose a novel motion retargeter that compiles the recovered 3D hand motions into executable joint trajectories for diverse robot morphologies, enabling video-to-action retargeting on any robot from arbitrary viewpoints and shot sizes (e.g., the human body is only partially visible). We validate EgoInfinity across perception fidelity, kinematic feasibility, contact consistency, cross-embodiment generalization, and real-robot skill acquisition (e.g., grasping, cutting, wiping, and pouring), demonstrating a scalable bridge from internet videos to executable robot behavior for open-world robot learning.
- Abstract(参考訳): インターネットビデオは人間の操作に関する知識を具現化した最大の貯水池でありながら、任意のRGB映像を実行可能なロボット訓練データに変換することは、依然として大きなボトルネックとなっている。
既存のラボや工場で収集されたデータセットは、規模と多様性が狭く、オープンワールドのロボット学習を制限する。
静的データセットを提案する代わりに,ロボットの再ターゲットと学習のためのWebスケールデータ生成を可能にする,汎用的な4DハンドオブジェクトインタラクションデータエンジンであるEgoInfinityを導入する。
EgoInfinity(エゴインフィニティ)は、知覚、セグメンテーション、再構築、相互認識の洗練、リターゲティングを統合したモジュラーエンジンである。
モジュラー設計により、エンジンは組み込まれたあらゆる部品の進歩から継続的に恩恵を受けることができる。
EgoInfinityでは、手の動き、6-DoFオブジェクトのポーズ、6-DoFオブジェクトのポーズ、接触関連状態を含む、エージェント非依存のメートル法4Dハンドオブジェクト表現に、野生の人間の操作ビデオが持ち上げられる。
スタンドアロンコンポーネントをナビゲート的に接続する代わりに、EgoInfinityは、クロスモジュールメトリックキャリブレーションとインタラクション対応のリファインメントを組み合わせることで、物理的な信頼性を改善し、純粋な視覚的再構成で一般的なドリフトとコンタクトの不整合を低減している。
さらに,回復した3次元手の動きを様々なロボット形態の実行可能な関節軌道にコンパイルし,任意の視点やショットサイズから任意のロボットに映像からアクションへのリターゲティングを可能にする動き再ターゲッターを提案する(例えば,人体は部分的にしか見えていない)。
我々は,インターネットビデオからオープンワールドロボット学習のための実行可能なロボット動作へのスケーラブルなブリッジを実証し,知覚の忠実さ,キネマティックな実現性,接触の整合性,クロス・エボディメントの一般化,実ロボットのスキル獲得(例えば,把握,切断,拭き上げ,注ぐなど)にまたがるエゴインフィニティを検証する。
関連論文リスト
- GRAIL: Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors [113.71148915419246]
GRAILは3Dアセット、シミュレーター対応シーン、およびビデオファンデーションモデル(VFM)の先行データで構成され、物理的環境を再構築したりロボットを遠隔操作したりすることなく対話を合成するデジタル生成パイプラインである。
GRAILは、オブジェクト形状、カメラパラメータ、メートル法スケール、環境深度、ロボットが提案する文字がビデオ生成の前に知られ、再構成中に再利用される、完全に定義された3D構成から始まる。
我々は、回復した動作をヒューマノイドロボットに再ターゲティングし、補完的なタスク・ジェネラル・モルフォロジー・トラッカーを訓練する。
GRAILは、ピックアップ、オブジェクト操作、着座にまたがる2万以上のシーケンスを生成する
論文 参考訳(メタデータ) (2026-06-03T17:57:45Z) - Co-training with Ego-centric Video and Demonstration for Robot Navigation Task [0.0]
本研究では,エゴセントリックな歩行映像を移動ロボット模倣学習のためのデータセットに変換するフレームワークを提案する。
提案手法は,人間の映像からカメラの動きを推定し,地上移動ロボットと互換性のある動作表現に変換する。
フルーツ検索ナビゲーションタスクの実験は、人間の自我中心のビデオがモバイルロボット学習に効果的でスケーラブルなデータソースを提供することを示した。
論文 参考訳(メタデータ) (2026-06-01T09:12:22Z) - H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos [58.006918399913665]
本稿では,通常の人間と物体のインタラクションビデオからモーション一貫性のあるロボット操作ビデオに変換するビデオ間翻訳フレームワークを提案する。
私たちのアプローチでは、ロボットビデオのセットのみをトレーニングするために、ペアの人間ロボットビデオは必要とせず、システムを拡張しやすくしています。
テスト時にも同じプロセスを人間のビデオに適用し、人間の行動を模倣する高品質なロボットビデオを生成する。
論文 参考訳(メタデータ) (2025-12-10T07:59:45Z) - RobotSeg: A Model and Dataset for Segmenting Robots in Image and Video [56.9581053843815]
画像とビデオにおけるロボットセグメンテーションの基礎モデルであるRobotSegを紹介する。
ロボットへの適応の欠如、手動のプロンプトへの依存、フレーム単位のトレーニングマスクアノテーションの必要性に対処する。
それは、画像とビデオの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-28T07:51:02Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - Pre-training Auto-regressive Robotic Models with 4D Representations [43.80798244473759]
ARM4Rは、人間のビデオデータから学んだ低レベルの4D表現を利用して、より優れた事前訓練されたロボットモデルを生成する自動回帰ロボットモデルである。
実験の結果、ARM4Rは人間のビデオデータからロボットへ効率よく転送でき、さまざまなロボット環境や構成におけるタスクのパフォーマンスを継続的に改善できることがわかった。
論文 参考訳(メタデータ) (2025-02-18T18:59:01Z) - Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction [51.49400490437258]
本研究は,1つの単分子RGB人間の実演から音声による物体操作を模倣する手法を開発した。
まず,モノクロ映像から3次元部分運動を復元する4次元微分可能部品モデル(4D-DPM)を提案する。
この4D再構成を前提として、ロボットは物体の軌道を再現し、両腕の動きを計画し、実証された物体部分の動きを誘導する。
両用するYuMiロボットを用いて,4D-DPMの3D追跡精度を実写3D部分軌跡に基づいて評価し,9つのオブジェクトに対してRSRDの物理的実行性能を評価した。
論文 参考訳(メタデータ) (2024-09-26T17:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。