Fugu-MT 論文翻訳(概要): Do as I Do: Dexterous Manipulation Data from Everyday Human Videos

論文の概要: Do as I Do: Dexterous Manipulation Data from Everyday Human Videos

arxiv url: http://arxiv.org/abs/2606.19333v1
Date: Wed, 17 Jun 2026 17:57:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-18 17:16:51.303373
Title: Do as I Do: Dexterous Manipulation Data from Everyday Human Videos
Title（参考訳）: 毎日の人間のビデオから、有害なマニピュレーションデータを取り出す
Authors: Bhawna Paliwal, Haritheja Etukuru, William Liang, Pieter Abbeel, Nur Muhammad Mahi Shafiullah, Jitendra Malik,
Abstract要約: 我々は,単眼のRGBビデオの再構成と,多指ロボットハンドへの再ターゲティングを行うDO AS I DOを提案する。アルゴリズムは、これらの手動の相互作用の推定値を、現実世界で実行可能な一連のアクションに再ターゲティングする。総合的に、DO AS I DOは、手動物体の相互作用を推定し、RGBビデオから巧妙な操作軌跡を抽出する手法のこれまでの状態よりも優れていた。
参考スコア（独自算出の注目度）: 69.98851738909168
License: http://creativecommons.org/licenses/by/4.0/
Abstract: How can we scalably generate data for robotic manipulation, especially on human-like platforms such as dexterous multi-fingered hands? Learning from human videos has recently emerged as a likely answer to this question. However, difficulties in estimating hand-object interaction and crossing the human-to-robot embodiment gap have hindered the adoption of abundant monocular RGB-only human videos as the primary source of robot manipulation data. In this work, we present DO AS I DO, an algorithm to reconstruct and retarget monocular RGB human videos to multi-fingered dexterous robotic hands. DO AS I DO reconstructs hand-object interactions from various egocentric and exocentric in-the-wild video sources. The algorithm then retargets these hand-object interaction estimates into a sequence of actions executable in the real world, yielding robot-complete manipulation data from disparate human videos. Overall, DO AS I DO outperforms previous state of the art in estimating hand-object interactions and extracting dexterous manipulation trajectories from RGB videos, as we show in experiments on datasets with ground truths and on a dataset of video clips collected online. Our experiments enable us to propose an efficacy playbook for practitioners collecting human data for manipulation.
Abstract（参考訳）: ロボット操作のためのデータ、特に器用なマルチフィンガーハンドのような人間のようなプラットフォームで、どのように精力的に生成できるのか? 人間のビデオから学ぶことは、この質問に対するおそらくの答えとして最近登場した。しかし、ロボット操作データの主要な情報源として、人-ロボット間の相互作用を推定し、人間-ロボットのエンボディメントギャップを横切ることの難しさが、豊富な単眼RGBのみの人間ビデオの採用を妨げている。本研究では,単眼のRGBビデオの再構成と,多指ロボットハンドへのリターゲティングを行うDO AS I DOを提案する。 DO AS I DOは、様々なエゴセントリックでエゴセントリックなインザワイルドビデオソースからのハンドオブジェクトインタラクションを再構築する。そしてアルゴリズムは、これらの手動の相互作用の推定値を、現実世界で実行可能な一連のアクションに再ターゲティングし、異なる人間のビデオからロボット完全操作データを生成する。総合的に、DO AS I DOは、RGBビデオから手動物体の相互作用を推定し、デクスタラスな操作軌跡を抽出する、過去の最先端技術よりも優れています。実験により,操作のための人的データ収集を行う実践者に対して,効果的なプレイブックを提案することができる。

関連論文リスト

LUCID: Learning Embodiment-Agnostic Intent Models from Unstructured Human Videos for Scalable Dexterous Robot Skill Acquisition [11.86733592383987]
LUCIDは、構造化されていない人間のビデオからタスク意図を学ぶフレームワークである。大規模な並列シミュレーションでロボットの制御を学習する。実世界の5つの操作課題におけるLUCIDの評価を行った。
論文参考訳（メタデータ） (2026-06-10T03:49:01Z)
DexImit: Learning Bimanual Dexterous Manipulation from Monocular Human Videos [56.64773686434068]
DexImitは、人間の操作映像を物理的に妥当なロボットデータに変換する自動フレームワークである。 DexImitは、インターネットまたはビデオ生成モデルから、人間のビデオに基づいて大規模なロボットデータを生成することができる。ツールの使用、長距離タスク、きめ細かい操作を含む多様な操作タスクを処理できる。
論文参考訳（メタデータ） (2026-02-10T18:59:02Z)
Dexterous Manipulation Policies from RGB Human Videos via 3D Hand-Object Trajectory Reconstruction [24.49384094440561]
我々は,RGBのヒューマンビデオから直接デクスタラスな操作を学習する,デバイスフリーのフレームワークであるVIDEOMANIPを提案する。シミュレーションでは、学習した把握モデルはインスパイアハンドを用いて20種類のオブジェクトに対して70.25%の成功率を達成する。実世界では、RGBビデオから訓練された操作ポリシーは、LEAPハンドを使用して7つのタスクで平均62.86%の成功率を達成する。
論文参考訳（メタデータ） (2026-02-09T18:56:02Z)
H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos [58.006918399913665]
本稿では,通常の人間と物体のインタラクションビデオからモーション一貫性のあるロボット操作ビデオに変換するビデオ間翻訳フレームワークを提案する。私たちのアプローチでは、ロボットビデオのセットのみをトレーニングするために、ペアの人間ロボットビデオは必要とせず、システムを拡張しやすくしています。テスト時にも同じプロセスを人間のビデオに適用し、人間の行動を模倣する高品質なロボットビデオを生成する。
論文参考訳（メタデータ） (2025-12-10T07:59:45Z)
EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos [49.820119587446655]
本稿では,エゴセントリックな人間ビデオを用いたVLA(Vision-Language-Action)モデルのトレーニングについて検討する。人間の手首と手の動きを予測する人間のビデオに基づいて訓練されたVLAによって、私たちはInverse Kinematicsを実行し、人間のアクションをロボットアクションに変換することができる。シミュレーションベンチマークであるEgo Humanoid Manipulation Benchmarkを提案する。
論文参考訳（メタデータ） (2025-07-16T17:27:44Z)
Giving Robots a Hand: Learning Generalizable Manipulation with Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文参考訳（メタデータ） (2023-07-12T07:04:53Z)
Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。我々の枠組みは、人間の手の動きを予測することに基づいている。トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文参考訳（メタデータ） (2023-02-03T21:39:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。