論文の概要: LUCID: Learning Embodiment-Agnostic Intent Models from Unstructured Human Videos for Scalable Dexterous Robot Skill Acquisition
- arxiv url: http://arxiv.org/abs/2606.11628v1
- Date: Wed, 10 Jun 2026 03:49:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.276416
- Title: LUCID: Learning Embodiment-Agnostic Intent Models from Unstructured Human Videos for Scalable Dexterous Robot Skill Acquisition
- Title(参考訳): LUCID:スケーラブルなデクスタースロボットスキル獲得のための非構造ビデオからの身体非依存インテントモデルの学習
- Authors: Harsh Gupta, Guanya Shi, Wenzhen Yuan,
- Abstract要約: LUCIDは、構造化されていない人間のビデオからタスク意図を学ぶフレームワークである。
大規模な並列シミュレーションでロボットの制御を学習する。
実世界の5つの操作課題におけるLUCIDの評価を行った。
- 参考スコア(独自算出の注目度): 11.86733592383987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The most widely-adopted robot learning pipelines today learn skills from robot demonstrations or structured human data, which are expensive to collect and tied to specific embodiments. In contrast, unstructured human videos provide a scalable alternative. They contain diverse manipulation demonstrations across objects, scenes, and strategies, but are not directly connected to robot action. We propose LUCID, a two-stage framework that learns task intent from unstructured human videos drawn from internet-scale datasets and learns robot control in massively-parallel simulation. The intent model predicts short-horizon intent (what should happen next in the scene) from the current observation in closed loop. An embodiment-specific sensorimotor policy converts this intent into robot actions. The intent interface is shared across controllers, so the same intent model can be applied to different embodiments, from our primary dexterous hand to a parallel-jaw gripper. We evaluate LUCID on five real-world manipulation tasks: stirring, wiping, and binning supervised by only internet video, with zero-shot transfer to novel scenes and object instances; and push-T and cable routing supervised by 1 hr each of self-collected smartphone video. Project page: https://lucid-robot.github.io/.
- Abstract(参考訳): 現在最も広く採用されているロボット学習パイプラインは、ロボットのデモや構造化された人間のデータからスキルを学ぶ。
対照的に、構造化されていない人間のビデオはスケーラブルな代替手段を提供する。
それらは、オブジェクト、シーン、戦略にまたがる多様な操作デモを含むが、ロボットのアクションに直接関連しない。
LUCIDは、インターネットスケールのデータセットから抽出された非構造化人間ビデオからタスク意図を学習し、大規模並列シミュレーションでロボット制御を学習する2段階のフレームワークである。
インテントモデルは、クローズドループにおける現在の観測から、ショートホライゾンインテント(シーンの次に何が起こるか)を予測する。
エンボディメント固有の感覚運動器ポリシーは、この意図をロボットアクションに変換する。
インテントインタフェースはコントローラ間で共有されるので、同じインテントモデルが、私たちの最初の手からパラレルジャウグリップパーまで、異なる実施形態に適用できる。
実世界の5つの操作課題についてLUCIDの評価を行った。インターネットビデオのみによって監視され、新規シーンやオブジェクトインスタンスにゼロショットで転送され、セルフコンパイルされたスマートフォンビデオの1時間毎に1Tとケーブルルーティングが監視される。
プロジェクトページ: https://lucid-robot.github.io/.com
関連論文リスト
- H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos [58.006918399913665]
本稿では,通常の人間と物体のインタラクションビデオからモーション一貫性のあるロボット操作ビデオに変換するビデオ間翻訳フレームワークを提案する。
私たちのアプローチでは、ロボットビデオのセットのみをトレーニングするために、ペアの人間ロボットビデオは必要とせず、システムを拡張しやすくしています。
テスト時にも同じプロセスを人間のビデオに適用し、人間の行動を模倣する高品質なロボットビデオを生成する。
論文 参考訳(メタデータ) (2025-12-10T07:59:45Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。