論文の概要: Wh0: Generative World Models as Scalable Sources of Egocentric Human Hand Manipulation Data
- arxiv url: http://arxiv.org/abs/2606.22136v1
- Date: Sat, 20 Jun 2026 16:31:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:15.085077
- Title: Wh0: Generative World Models as Scalable Sources of Egocentric Human Hand Manipulation Data
- Title(参考訳): Wh0:Egocentric Human Hand Manipulation Dataのスケーラブルソースとしての生成世界モデル
- Authors: Yangtao Chen, Zixuan Chen, Peiyang Wang, Yong-Lu Li, Jing Huo, Jieqi Shi, Yang Gao,
- Abstract要約: Wh0は、生成的ビデオワールドモデルを、エゴセントリックな人手操作データのスケーラブルなソースとして利用するフレームワークである。
Wh0は言語、オブジェクト、シーンに基づいており、生成ワールドモデルを使用してWM-Hを生成する。
WM-Hは、限られた量の実際のロボットデータとともに、事前訓練されたVLAモデルを、巧妙な操作展開に適応させる。
- 参考スコア(独自算出の注目度): 36.400271590085545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling dexterous manipulation requires generalization across objects, scenes, and tasks, yet existing data sources face a trade-off between scale and scene/embodiment alignment: teleoperation data is well aligned with robot deployment but expensive to collect; simulation is scalable but limited by the sim-to-real gap; and real egocentric videos scale effectively but remain misaligned with robot deployment. We propose Wh0, a framework that uses generative video world models as scalable and controllable sources of egocentric human-hand manipulation data to unlock the manipulation capabilities of pretrained dexterous VLA models. Conditioned on language, objects, and scenes, Wh0 uses a generative world model to produce WM-H, a 50k-episode dataset of egocentric human-object interaction videos. Wh0 then converts the generated videos into robot-trainable supervision through hand motion reconstruction and visual editing. Co-trained with a limited amount of real robot data, WM-H adapts pretrained VLA models to dexterous manipulation deployment. Across 18 real-world dexterous manipulation tasks, compared with a model post-trained only on robot data, Wh0 improves zero-shot success on unseen tasks from 8.3% to 38.9%. Ablation studies further show that scalable generation and scene/embodiment alignment are key drivers of performance gains. Videos and open-source code can be found on our project website: https://chenyt31.github.io/wh0.github.io/.
- Abstract(参考訳): 遠隔操作データは、ロボットのデプロイメントとよく一致しているが、収集には高価である。シミュレーションはスケーラブルだが、シミュレート・トゥ・リアルのギャップによって制限されている。
Wh0は,自我中心の人手操作データのスケーラブルで制御可能なソースとして生成ビデオワールドモデルを使用するフレームワークで,事前学習したデキスタラスVLAモデルの操作能力を解放する。
Wh0は言語、オブジェクト、シーンに基づいており、生成的世界モデルを使用して、人間中心の対話ビデオの50kエピソードデータセットであるWM-Hを生成する。
そしてWh0は、生成したビデオを手の動きの再構成と視覚的な編集によってロボットに訓練可能な監視に変換する。
WM-Hは、限られた量の実際のロボットデータとともに、事前訓練されたVLAモデルを、巧妙な操作展開に適応させる。
ロボットデータにのみ訓練されたモデルと比較すると、18の現実世界のデキスタスな操作タスクは8.3%から38.9%に改善されている。
アブレーション研究により、スケーラブルな生成とシーン/身体のアライメントがパフォーマンス向上の鍵となることが示されている。
ビデオとオープンソースコードは、プロジェクトのWebサイト(https://chenyt31.github.io/wh0.github.io/)で見ることができる。
関連論文リスト
- OASIS: From Simulation Data Collection to Real-World Humanoid Loco-Manipulation [51.37436817948304]
OASISはヒューマノイドのロコ操作のためのシミュレーションデータ駆動のフレームワークである。
3次元生成モデルを用いて実世界の画像から現実的なオブジェクト資産を再構築する。
ゼロショットデプロイメントでは、実際のロボット遠隔操作データでトレーニングされたタスクよりも、ほとんどのタスクで高い成功率を達成する。
論文 参考訳(メタデータ) (2026-06-07T10:01:53Z) - DexImit: Learning Bimanual Dexterous Manipulation from Monocular Human Videos [56.64773686434068]
DexImitは、人間の操作映像を物理的に妥当なロボットデータに変換する自動フレームワークである。
DexImitは、インターネットまたはビデオ生成モデルから、人間のビデオに基づいて大規模なロボットデータを生成することができる。
ツールの使用、長距離タスク、きめ細かい操作を含む多様な操作タスクを処理できる。
論文 参考訳(メタデータ) (2026-02-10T18:59:02Z) - Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos [42.86535655563404]
我々は、任意の手動ビデオのための完全自動化された総合的人間活動分析手法を開発した。
大量のエゴセントリックなビデオを処理し、100Mエピソードと26Mフレームを含む手動VLAトレーニングデータセットを作成します。
我々は手動VLAモデルアーキテクチャを設計し、このデータセット上でモデルを事前訓練する。
論文 参考訳(メタデータ) (2025-10-24T15:39:31Z) - Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos [66.62109400603394]
本稿では,大規模な人体ビデオで訓練された視覚・言語・行動モデルであるBeing-H0を紹介する。
提案手法は,人間のビデオからの大規模VLA事前学習,3次元推論のための物理空間アライメント,ロボット作業のためのポストトレーニング適応を組み合わせた,新しいトレーニングパラダイムである物理インストラクションチューニングに重点を置いている。
本研究では,手の動き生成と指示の結果としてのBeat-H0の卓越性を実証的に示すとともに,モデルやデータサイズにもよく対応している。
論文 参考訳(メタデータ) (2025-07-21T13:19:09Z) - DreamGen: Unlocking Generalization in Robot Learning through Video World Models [120.25799361925387]
DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。
私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
論文 参考訳(メタデータ) (2025-05-19T04:55:39Z) - What Are You Doing? A Closer Look at Controllable Human Video Generation [73.89117620413724]
What Are You Doing?」は、人間の制御可能な画像とビデオの生成を評価するための新しいベンチマークである。
このビデオは、1,544本のキャプション付きビデオで構成されており、56の細かなカテゴリーで細かな収集と注釈付けがなされている。
制御可能な画像・映像生成における7つの最先端モデルの詳細な解析を行う。
論文 参考訳(メタデータ) (2025-03-06T17:59:29Z) - Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation [74.70013315714336]
Gen2Actは、ゼロショットのヒューマンビデオ生成として言語条件の操作をキャストし、生成したビデオに対して単一のポリシーで実行します。
実世界の多様なシナリオにおいて,Gen2Actがロボットデータに存在しないタスクに対して,未知のオブジェクトタイプを操作したり,新たな動作を実行したりすることができることを示す。
論文 参考訳(メタデータ) (2024-09-24T17:57:33Z) - Manipulate-Anything: Automating Real-World Robots using Vision-Language Models [47.16659229389889]
実世界のロボット操作のためのスケーラブルな自動生成手法であるManipulate-Anythingを提案する。
Manipulate-Anythingは、特権のある状態情報や手書きのスキルなしで現実世界の環境で動作でき、静的オブジェクトを操作できる。
論文 参考訳(メタデータ) (2024-06-27T06:12:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。