論文の概要: V2P-Manip: Learning Dexterous Manipulation from Monocular Human Videos
- arxiv url: http://arxiv.org/abs/2606.16436v1
- Date: Mon, 15 Jun 2026 09:08:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:05.052023
- Title: V2P-Manip: Learning Dexterous Manipulation from Monocular Human Videos
- Title(参考訳): V2P-Manip: モノクロビデオからデクサス操作を学習する
- Authors: Kaihan Chen, Yanming Shao, Haifeng Ji, Xiaokang Yang, Yao Mu,
- Abstract要約: V2P-Manipは、人間のデモビデオから直接巧妙な操作ポリシーを学ぶために設計されたフレームワークである。
我々は,3次元資産獲得,軌道推定,厳密な政策学習を含む効率的な統合パイプラインを構築した。
- 参考スコア(独自算出の注目度): 31.75414004293948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving autonomous robotic dexterous manipulation requires precise, human-like action sequences at scale. As a scalable supplement to costly teleoperation data, extracting trajectories with both visual fidelity and physical plausibility from monocular videos represents a promising frontier in embodied AI. To this end, we introduce V2P-Manip, an efficient framework designed to learn dexterous manipulation policies directly from human demonstration videos. We establish an efficient, integrated pipeline encompassing 3D asset acquisition, trajectory estimation, and dexterous policy learning. To bridge the gap between visual perception and physical constraints, we introduce a two-stage refinement process to enforce spatial alignment and physical consistency. Evaluations on the TACO and OakInk benchmarks demonstrate that our approach significantly outperforms previous methods in pose accuracy, adaptability to unstructured environments, and training efficiency. Ultimately, experimental results confirm an average success rate of over 75% across multiple synthetic manipulation tasks and validate the adaptability of the extracted manipulation priors across diverse dexterous hand embodiments.
- Abstract(参考訳): 自律的なロボットの巧妙な操作を実現するには、正確に人間に似たアクションシーケンスをスケールする必要がある。
高価な遠隔操作データに対するスケーラブルなサプリメントとして、モノクロビデオから視覚的忠実度と身体的可視性の両方で軌跡を抽出することは、具体化されたAIにおける有望なフロンティアである。
この目的のために,人間のデモビデオから直接デクサラスな操作ポリシーを学習するために設計された,効率的なフレームワークであるV2P-Manipを紹介した。
我々は,3次元資産獲得,軌道推定,厳密な政策学習を含む効率的な統合パイプラインを構築した。
視覚知覚と身体的制約のギャップを埋めるために,空間的アライメントと身体的一貫性を強制する2段階の洗練プロセスを導入する。
TACOおよびOakInkベンチマークによる評価の結果,提案手法は従来手法よりも精度,非構造化環境への適応性,トレーニング効率に優れていた。
最終的に、複数の合成操作タスクで平均75%以上の成功率を確認し、抽出した操作前の操作の適応性を評価した。
関連論文リスト
- From Human Videos to Robot Manipulation: A Survey on Scalable Vision-Language-Action Learning with Human-Centric Data [71.22409934108924]
人間のビデオは豊富で、豊富な相互作用を捉え、現実世界の操作に多様な意味と物理的な手がかりを提供する。
この調査は、人間のビデオがビジョン・ランゲージ・アクション(VLA)モデルの効果的な知識にどのように変換されるか、統一された視点を提供する。
この領域では、非構造化動画をトレーニング可能なエピソードに構造化すること、エンボディメントと視点の不均一性の下でロボットが実行可能なアクションにビデオから制御すること、現実世界の展開性能と転送効率をよりよく予測する評価プロトコルを設計すること、の3つのオープンな課題を強調している。
論文 参考訳(メタデータ) (2026-05-18T06:19:16Z) - Learning Action Manifold with Multi-view Latent Priors for Robotic Manipulation [67.16145181790522]
本稿では,視覚・言語・行動モデル(VLA)における空間認識と操作の課題に取り組む。
幾何学的ガイダンスに基づいて多視点特徴を整列する幾何誘導型ゲート変換器(G3T)を提案する。
動作学習効率を向上させるために,有効な動作多様体上での動作を直接予測するアクション・マニフォールド・ラーニング(AML)を導入する。
論文 参考訳(メタデータ) (2026-05-12T09:21:29Z) - Cortical Policy: A Dual-Stream View Transformer for Robotic Manipulation [57.28703268044067]
ロボット操作のための新しいデュアルストリームビュー変換器であるCortical Policyを提案する。
われわれのフレームワークは、ロボット操作の新しい視点を提供し、視覚に基づくロボット制御の幅広い応用の可能性を秘めている。
論文 参考訳(メタデータ) (2026-03-22T04:18:54Z) - Joint-Aligned Latent Action: Towards Scalable VLA Pretraining in the Wild [37.43820830488286]
JALAは,協調型潜在行動学習のための事前学習フレームワークである。
We scale this approach with UniHand-Mix, a 7.5M video corpus (>2,000時間) mixing lab and the-the-wild footage。
実験により、JALAは制御されたシナリオと制約のないシナリオの両方でより現実的な手の動きを生成することが示された。
論文 参考訳(メタデータ) (2026-02-25T09:46:42Z) - ConLA: Contrastive Latent Action Learning from Human Videos for Robotic Manipulation [27.54751123419347]
人間のビデオからロボットポリシーを学習するための教師なし事前学習フレームワークであるConLAを提案する。
人間のビデオのみに事前学習を行うことで、実際のロボット軌道事前学習で得られた性能を初めて上回ります。
論文 参考訳(メタデータ) (2026-01-31T06:40:57Z) - METIS: Multi-Source Egocentric Training for Integrated Dexterous Vision-Language-Action Model [36.82365894983052]
大きなボトルネックは、デクスタラススキルのための大規模でアクションアノテートされたデータの不足にある。
我々は,エゴセントリックなデータセット上で事前学習したデクスタラス操作のための視覚言語アクションモデルMETISを提案する。
提案手法は,6つの実世界のタスクにおける平均成功率を達成し,異常な操作能力を示す。
論文 参考訳(メタデータ) (2025-11-21T16:32:36Z) - Precise Action-to-Video Generation Through Visual Action Prompts [62.951609704196485]
アクション駆動のビデオ生成は、精度と一般性のトレードオフに直面している。
エージェント中心のアクション信号は、クロスドメイン転送可能性のコストで精度を提供する。
私たちはアクションをドメインに依存しない表現として正確に視覚的なプロンプトに"レンダリング"します。
論文 参考訳(メタデータ) (2025-08-18T17:12:28Z) - Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - Reconstructing Close Human Interaction with Appearance and Proxemics Reasoning [50.76723760768117]
既存の人間のポーズ推定手法では、既存の映像からもっともらしい密接な相互作用を回復できない。
人間の外見は、これらの障害に対処するための簡単な手がかりとなる。
本研究では,人間の外見,社会的プロキシ,物理法則に制約された身体接触により,正確な対話動作を再構築するための2分岐最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-03T12:19:26Z) - VTAO-BiManip: Masked Visual-Tactile-Action Pre-training with Object Understanding for Bimanual Dexterous Manipulation [8.882764358932276]
両手の DoF の高さと協調性のため、ロボット工学における両面的な操作は依然として重要な課題である。
既存の片手操作技術は、人間のデモンストレーションを利用してRL法を誘導するが、複数のサブスキルを含む複雑な双対タスクに一般化できないことが多い。
VTAO-BiManipは,視覚触覚前訓練と物体理解を組み合わせた新しいフレームワークである。
論文 参考訳(メタデータ) (2025-01-07T08:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。