Fugu-MT 論文翻訳(概要): Video2Sim2Real: Full-Stack Autonomous Dexterous Skill Acquisition from a Single Human Video

論文の概要: Video2Sim2Real: Full-Stack Autonomous Dexterous Skill Acquisition from a Single Human Video

arxiv url: http://arxiv.org/abs/2606.08828v1
Date: Sun, 07 Jun 2026 20:45:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:06.471582
Title: Video2Sim2Real: Full-Stack Autonomous Dexterous Skill Acquisition from a Single Human Video
Title（参考訳）: Video2Sim2Real: フルスタックの自律的デクスターススキル獲得
Authors: Yunhai Han, Jianuo Qiu, Linhao Bai, Ziyu Xiao, Zihang Zeng, Yangcen Liu, Zhaodong Yang, Shalin Jain, Wenrui Ma, Jiaqi Fu, Yuqian Zheng, Manisha Natarajan, Muhammad Zubair Irshad, Kenneth Shaw, Matthew Gombolay, Zsolt Kira, Harish Ravichandar,
Abstract要約: Video2Sim2Realは、単一の人間の操作ビデオから自律的なスキル獲得のためのフルスタックフレームワークである。既製の基礎モデルを用いてシミュレーター対応のデジタルツインを再構築し,ロボットや物体の動きを抽出する。我々は,雑音の多い実世界の点雲からILを介してロボットの構成を調整し,残差RLを利用して局所的な指レベル適応を行う。
参考スコア（独自算出の注目度）: 25.87334839420446
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human manipulation videos are a convenient and intuitive source for robot learning. However, directly transferring human dexterity to robots remains challenging due to perception errors and embodiment gap. To address this, we introduce Video2Sim2Real, a full-stack framework for autonomous skill acquisition from a single human manipulation video. Our framework first uses off-the-shelf foundation models to reconstruct a simulator-ready digital twin and extract robot and object motion priors. Rather than treating the extracted robot motion as a reliable reference throughout execution, our key idea is to recover and leverage the most fundamental sources of supervision from the demonstrated skill: We identify object-centric keyframes to optimize the corresponding robot configurations using object information from the simulator, and use these configurations as anchors that refine the robot motion such that it ultimately has the desired impact on the environment. To bridge the remaining sim-to-real gap, we introduce a sim-to-real strategy that decouples robustness to noisy and incomplete perception from variations in hand-object interaction dynamics. Specifically, we learn to recalibrate robot configurations from noisy real-world point clouds via IL, and leverage residual RL to perform local finger-level adaptations to ensure for robust and effective interactions. Finally, a collision-aware motion planning module enables spatial generalization to novel object configurations. Across several everyday manipulation tasks, Video2Sim2Real improves simulated task success, safety, and trajectory coherence over numerous baselines, and achieves better sim-to-real transfer than existing techniques. These results demonstrate a promising path toward autonomous dexterous skill acquisition from human videos.
Abstract（参考訳）: 人間の操作ビデオは、ロボット学習にとって便利で直感的な情報源だ。しかし、認識誤差や体格差のため、人間の器用性を直接ロボットに移すことは依然として困難である。これを解決するために,人間の操作ビデオから自律的なスキル獲得のためのフルスタックフレームワークであるVideo2Sim2Realを紹介した。本フレームワークは,まず市販の基盤モデルを用いて,シミュレータ対応のディジタルツインを再構築し,ロボットや物体の動きを抽出する。対象中心のキーフレームを識別し、シミュレータのオブジェクト情報を用いて対応するロボット構成を最適化し、これらの構成を、最終的に環境に望ましい影響を与えるようにロボットの動きを洗練するためのアンカーとして使用する。残余のsim-to-realギャップを埋めるために、手-物体相互作用の変動から頑健さと雑音と不完全な知覚を分離するsim-to-real戦略を導入する。具体的には、雑音の多い現実の点雲からILを介してロボットの構成を調整し、残差RLを利用して局所的な指レベル適応を行い、堅牢で効果的な相互作用を確実にする。最後に、衝突認識型モーションプランニングモジュールは、新しいオブジェクト構成への空間的一般化を可能にする。いくつかの日常的な操作タスクの中で、Video2Sim2Realは、多数のベースラインに対してシミュレーションされたタスク成功、安全性、トラジェクトリコヒーレンスを改善し、既存の技術よりもシミュレートと現実の転送を実現している。これらの結果は、人間のビデオから自律的な巧妙なスキル獲得への有望な道のりを示している。

関連論文リスト

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping [66.22412592525369]
本稿では,ガウスのSplat表現を生かした実--sim-to-realエンジンを導入し,実-sim-to-realエンジンについて述べる。提案エンジンは, 各種物体の形状と質量値のマス識別において, 高精度かつロバストな性能を実現していることを示す。これらの最適化された質量値は、力覚的なポリシー学習を促進し、オブジェクトの把握において優れた、高いパフォーマンスを達成する。
論文参考訳（メタデータ） (2026-03-01T15:32:04Z)
Imitating What Works: Simulation-Filtered Modular Policy Learning from Human Videos [56.510263910611684]
本研究では,様々な動作を行う前に物体をつかむタスクを包括的操作に対処する。人間のビデオは、移植後の動作を学ぶための強力な信号を提供するが、必要な把握行動を学ぶのにはあまり役に立たない。本稿では、人間の動画モーションデータを用いたモジュラー操作ポリシーをトレーニングするためのフレームワークであるPerceive-Simulate-Imitate(PSI)を提案する。
論文参考訳（メタデータ） (2026-02-13T18:59:10Z)
FLEX: A Framework for Learning Robot-Agnostic Force-based Skills Involving Sustained Contact Object Manipulation [9.292150395779332]
本稿では,力空間におけるオブジェクト中心の操作ポリシーを学習するための新しいフレームワークを提案する。提案手法は, 動作空間を単純化し, 不要な探索を低減し, シミュレーションオーバーヘッドを低減させる。評価の結果,本手法はベースラインを著しく上回ることがわかった。
論文参考訳（メタデータ） (2025-03-17T17:49:47Z)
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
Learning to navigate efficiently and precisely in real environments [14.52507964172957]
Embodied AIの文献は、HabitatやAI-Thorといったシミュレータで訓練されたエンドツーエンドエージェントに焦点を当てている。本研究では,sim2realのギャップを最小限に抑えたシミュレーションにおけるエージェントのエンドツーエンドトレーニングについて検討する。
論文参考訳（メタデータ） (2024-01-25T17:50:05Z)
Towards Transferring Tactile-based Continuous Force Control Policies from Simulation to Robot [19.789369416528604]
グリップフォースコントロールは、物体に作用する力の量を制限することによって、物体を安全に操作することを目的としている。以前の作品では、手動制御器、モデルベースのアプローチ、あるいはsim-to-realトランスファーを示さなかった。シミュレーションで訓練されたモデルなしの深層強化学習手法を提案し,さらに微調整を行わずにロボットに移行した。
論文参考訳（メタデータ） (2023-11-13T11:29:06Z)
Learning Bipedal Walking for Humanoids with Current Feedback [5.429166905724048]
アクチュエータレベルでの不正確なトルクトラッキングから生じるヒューマノイドロボットのシム2リアルギャップ問題を克服するためのアプローチを提案する。提案手法は、実際のHRP-5Pヒューマノイドロボットに展開して二足歩行を実現するシミュレーションにおいて、一貫したエンドツーエンドのポリシーをトレーニングする。
論文参考訳（メタデータ） (2023-03-07T08:16:46Z)
Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文参考訳（メタデータ） (2021-11-15T18:50:04Z)
Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。 RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文参考訳（メタデータ） (2020-07-27T17:46:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。