論文の概要: Hand-centric Human-to-Robot Trajectory Transfer from Video Demonstrations via Open-World Contact Localization
- arxiv url: http://arxiv.org/abs/2606.10743v1
- Date: Tue, 09 Jun 2026 11:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.029428
- Title: Hand-centric Human-to-Robot Trajectory Transfer from Video Demonstrations via Open-World Contact Localization
- Title(参考訳): オープンワールド・コンタクト・ローカライゼーションによるビデオデモから手中心型人間-ロボット軌道移動
- Authors: Yitian Shi, Di Wen, Zhengqi Han, Zicheng Guo, Yu Hu, Edgar Welte, Kunyu Peng, Rainer Stiefelhagen, Rania Rayyes,
- Abstract要約: EmphHOWTransferは、人間のデモを接触認識、分類情報、多様なロボット軌道に蒸留する手中心のフレームワークである。
emphHOWTransferは、時間的に一貫した3次元手の動きを回復し、観察された手と物体の相互作用の手がかりを解析することで、時間的接触間隔を局所化する。
実験によると、emphHOWTransferは86%の精度で正確な接触位置決めと高品質なロボットの動きを可能にする。
- 参考スコア(独自算出の注目度): 28.23926683554352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from human video demonstrations remains challenging due to noisy hand-object interactions, unseen objects with partial observation, and cross-embodiment discrepancy. To address these challenges, we present \textit{HOWTransfer} (\emph{H}and-\emph{O}bject \emph{O}pen-\emph{W}orld Transfer), a hand-centric framework that distills human demonstrations into contact-aware, taxonomy-informed, and diverse robotic trajectories. Instead of relying on object-specific descriptions, vision-language queries, or explicit object-state tracking, \emph{HOWTransfer} recovers temporally consistent 3D hand motion and localizes temporal contact intervals by reasoning over observed hand-object interaction cues. The localized contact onsets are then used to retarget human grasp intent into multi-modal parallel-jaw grasp hypotheses, which are propagated along the recovered wrist trajectory to generate robot-executable motions. Finally, a trajectory editing stage refines contact alignment and produces diverse executable variants from a single demonstration. Experiments across diverse manipulation tasks show that \emph{HOWTransfer} enables accurate contact localization and high-quality robot motion retargeting with $86\%$ success, which is preferred over teleoperated trajectories in a blinded preference study.
- Abstract(参考訳): 人間のビデオのデモから学ぶことは、ノイズの多い手-物体の相互作用、部分的な観察を伴う見えない物体、異体間不一致など、依然として困難である。
これらの課題に対処するために,人間の実演を接触認識,分類情報,多種多様なロボット軌道に蒸留する手中心のフレームワークであるtextit{HOWTransfer} (\emph{H}and-\emph{O}bject \emph{O}pen-\emph{W}orld Transfer)を提案する。
オブジェクト固有の記述、視覚言語クエリ、明示的なオブジェクト状態追跡に頼る代わりに、 \emph{HOWTransfer} は時間的に一貫した3次元手の動きを回復し、観察された手と物体の相互作用の手がかりを引き合いに出して時間的接触間隔を局所化する。
局所化されたコンタクトオンセットは、人間のつかむ意図をマルチモーダルなパラレルジャウグリップ仮説に再ターゲティングするために使用され、この仮説は、回復した手首軌道に沿って伝播して、ロボットが実行可能な動作を生成する。
最後に、軌道編集段階は、接触アライメントを洗練させ、単一のデモンストレーションから様々な実行可能な変種を生成する。
多様な操作タスクを対象とした実験では, 視覚障害者を対象にした遠隔操作よりも, 正確な接触位置決めと高品質なロボット動作のリターゲティングを実現している。
関連論文リスト
- MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction [54.36564144414704]
MeshMimicは、3Dシーンの再構築とインテリジェンスを組み込んだ革新的なフレームワークで、ヒューマノイドロボットがビデオから直接「モーション・テライン」インタラクションを学習できるようにする。
現状の3次元視覚モデルを活用することで、我々のフレームワークは、人間の軌跡と基礎となる地形や物体の3次元幾何学の両方を正確にセグメント化し再構築する。
論文 参考訳(メタデータ) (2026-02-17T17:09:45Z) - MoReact: Generating Reactive Motion from Textual Descriptions [57.642436102978245]
MoReactは拡散に基づく手法で、グローバルな軌跡と局所的な動きを連続的に引き離すように設計されている。
2人の動作データセットから適応したデータを用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-09-28T14:31:41Z) - SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-28T20:53:20Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - NIFTY: Neural Object Interaction Fields for Guided Human Motion
Synthesis [21.650091018774972]
我々は、特定の物体に付随する神経相互作用場を作成し、人間のポーズを入力として与えられた有効な相互作用多様体までの距離を出力する。
この相互作用場は、対象条件付きヒトの運動拡散モデルのサンプリングを導く。
いくつかの物体で座ったり持ち上げたりするための現実的な動きを合成し、動きの質や動作完了の成功の観点から、代替のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-07-14T17:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。