論文の概要: GenHOI: Contact-Aware Humanoid-Object Interaction by Imitating Generated Videos without Task-Specific Training
- arxiv url: http://arxiv.org/abs/2606.12995v1
- Date: Thu, 11 Jun 2026 07:31:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.644437
- Title: GenHOI: Contact-Aware Humanoid-Object Interaction by Imitating Generated Videos without Task-Specific Training
- Title(参考訳): Genhoi:タスク特化訓練なしで生成した映像を映し出す接触認識型ヒューマノイドオブジェクトインタラクション
- Authors: Zhihai Bi, Qiang Zhang, Guoyang Zhao, Jiahang Cao, Xueyin Luo, Yushan Zhang, Jinglan Xu, Ruoyu Geng, Yulin Li, Andrew F. Luo, Jun Ma,
- Abstract要約: 既存の方法は、しばしば時間を要するタスク固有のポリシートレーニングを必要とするか、厳格な軌跡の再生に依存している。
我々は,人型ロボットがゼロショット方式で多様なオブジェクトインタラクションタスクを実行できるフレームワークであるtextitGenHOIを提案する。
提案手法を多種多様なオブジェクト・インタラクション・タスクにまたがる広範囲なシミュレーションおよび実世界の実験で検証する。
- 参考スコア(独自算出の注目度): 20.414478780328437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humanoid-Object Interaction (HOI) is a fundamental capability for humanoid robots, yet it remains challenging due to the tight coupling between dynamic balance and stable interaction with diverse objects. Existing methods often require time-consuming task-specific policy training or rely on rigid trajectory replay, which limits their ability to accommodate novel interaction scenarios. In this work, we present \textit{GenHOI}, a simple yet effective framework that enables humanoid robots to perform diverse object-interaction tasks in a zero-shot manner by directly imitating a single generated video, without task-specific training or physical demonstration data. GenHOI first reconstructs the robot-object scene in simulation and renders a first-frame image, which, together with the language command, conditions the synthesis of a task-oriented interaction video. The generated video is then analyzed to identify interaction-relevant contact events and estimate hand-object contact regions, which are encoded as object-centric geometric constraints that convert visual interaction cues into physically grounded optimization priors. Guided by these priors, the reference motion recovered from the video is refined and smoothed to resolve the scale ambiguity inherent in 2D video generation, while adapting a single reference trajectory to unseen robot-object relative poses. The optimized trajectory is finally executed by a closed-loop tracking controller. We validate the proposed framework in extensive simulation and real-world experiments across diverse object-interaction tasks, including box grasping, asymmetric bimanual chair carrying, table lifting from below, and cylindrical-object enveloping.
- Abstract(参考訳): ヒューマノイド・オブジェクト・インタラクション(HOI)はヒューマノイドロボットの基本的な機能であるが、動的バランスと多様な物体との安定した相互作用の密接な結合により、依然として困難である。
既存の方法は、しばしば時間を要するタスク固有のポリシートレーニングを必要とするか、または、新しい相互作用シナリオに対応する能力を制限する厳格な軌道リプレイに依存している。
本研究では,人間型ロボットがタスク固有のトレーニングや実演データを使わずに,単一生成した映像を直接模倣することにより,多様なオブジェクトインタラクションタスクをゼロショットで実行可能にする,シンプルで効果的なフレームワークである「textit{GenHOI}」を提案する。
GenHOIはまず、ロボットオブジェクトシーンをシミュレーションで再構築し、第1フレーム画像をレンダリングし、言語コマンドとともにタスク指向の対話ビデオの合成を条件付ける。
生成したビデオは、相互作用関連接触事象を識別し、手対象接触領域を推定するために分析され、視覚的相互作用のキューを物理的に基底化された最適化の先行値に変換するオブジェクト中心の幾何学的制約として符号化される。
これらの先行技術により、ビデオから回収された参照運動は洗練され、滑らかにされ、2次元ビデオ生成に固有のスケールのあいまいさを解消し、単一の参照軌道をロボットの相対的なポーズに適応させる。
最適化された軌道は、最終的にクローズドループトラッキングコントローラによって実行される。
提案手法は,箱握り,非対称なバイマニュアルチェア搬送,下からのテーブルリフト,円筒形物体の包み込みなど多種多様なオブジェクトインタラクションタスクを対象とした,広範囲なシミュレーションおよび実世界の実験において検証された。
関連論文リスト
- ManiSplat: Manipulation Trajectory Synthesis from Monocular Video via Decoupled 3D Gaussian Splatting [28.256286705954846]
現実の観察から動的でインタラクティブな3Dシーンを再構築することは、コンピュータビジョンとロボティクスの基本的な課題である。
ロボットビデオから直接ガウスのデジタル双生児を制御可能で分離する統合フレームワークであるManiSplatを紹介した。
提案手法は,対話駆動型動的シーンを高忠実度かつ制御性で再構築し,下流ロボットタスクとポリシー学習を効果的に支援する。
論文 参考訳(メタデータ) (2026-06-09T09:55:58Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-28T20:53:20Z) - Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy [30.43930233035367]
VLM(Vision-Language Models)を利用した最初の統合物理ベースのHOフレームワークを紹介する。
VLM-Guided Relative Movement Dynamics (RMD)を導入する。これは、強化学習のための目標状態と報酬関数を自動的に構築する、微細な時間的二部運動表現である。
提案手法をサポートするために,何千もの長期の静的および動的相互作用計画を持つ新しいデータセットであるInterplayを提案する。
論文 参考訳(メタデータ) (2025-03-24T05:18:04Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。