論文の概要: Unified Motion-Action Modeling for Heterogeneous Robot Learning
- arxiv url: http://arxiv.org/abs/2606.16917v2
- Date: Tue, 16 Jun 2026 14:48:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.834593
- Title: Unified Motion-Action Modeling for Heterogeneous Robot Learning
- Title(参考訳): 不均質なロボット学習のための統一モーション・アクション・モデリング
- Authors: Yunhao Cao, Shitong Liu, Chao Feng, Meryl Zhang, Xuanchen Lu, Andrew Owens, Kuan Fang,
- Abstract要約: UMAは、物体の動きとロボットの動きを、マスクされた生成目的の下で共進化変数として扱う。
UMAは、手動でアノテートされたタスク命令を必要とせずに、異種データソース間のマルチタスク事前トレーニングを可能にする。
UMAは、各推論モードに特化された最先端のベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 35.20580699433655
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present Unified Motion-Action (UMA) Model, an approach that uses 3D object motion trajectories as a shared interface to bridge visuomotor control and dynamics modeling. UMA treats object motion and robot actions as co-evolving variables under a masked generative objective, in which the mask pattern determines both the supervision regime during pretraining and the inference mode at deployment. Using hindsight-relabeled motion contexts and a contrastive objective that disentangles task intent from scene geometry, UMA enables multi-task pretraining across heterogeneous data sources without requiring manually annotated task instructions. At deployment, the same pretrained parameters support motion-conditioned visuomotor control, motion-based dynamics modeling, and task adaptation from few-shot demonstrations. Pretrained on a mixture of robot demonstrations, human videos, and simulated data, UMA consistently outperforms state-of-the-art baselines specialized for each inference mode.
- Abstract(参考訳): 我々は3次元物体の運動軌跡を共有インタフェースとして利用し,ビジュモータ制御と動的モデリングを橋渡しするUnified Motion-Action(UMA)モデルを提案する。
UMAは、マスクパターンが事前訓練時の監督体制と展開時の推論モードの両方を決定するマスク付き生成目標の下で、オブジェクトの動きとロボット動作を共進化変数として扱う。
シーン幾何学からタスク意図を遠ざけるような、後向きの動作コンテキストと対照的な目的を用いて、UMAは、手動で注釈付けされたタスク命令を必要とせずに、異種データソースを横断するマルチタスク事前訓練を可能にする。
デプロイ時に、同じ事前訓練されたパラメータは、モーションコンディション付きビジュモータ制御、モーションベースのダイナミックスモデリング、および数発のデモからのタスク適応をサポートする。
UMAはロボットのデモ、人間のビデオ、シミュレートされたデータの混合に基づいて、各推論モードに特化された最先端のベースラインを一貫して上回っている。
関連論文リスト
- FreeAction: Training-Free Techniques for Enhanced Fidelity of Trajectory-to-Video Generation [50.39748673817223]
本稿では,ロボットビデオ生成における明示的な動作パラメータを完全に活用する2つのトレーニング不要な推論時間手法を提案する。
第一に、アクションスケールの分類器フリーガイダンスは、動作の大きさに比例して誘導強度を動的に調整し、運動強度に対する制御性を高める。
第二に、アクションスケールノイズトランケーションは、初期サンプルノイズの分布を調整し、所望の運動力学とよりよく一致させる。
論文 参考訳(メタデータ) (2025-09-29T03:30:40Z) - Joint Flow Trajectory Optimization For Feasible Robot Motion Generation from Video Demonstrations [8.133207162076877]
本稿では,LfD(Learning-from-Demonstration)パラダイムに基づくポーズ生成とオブジェクトの軌道模倣を把握するためのフレームワークを提案する。
人間の手の動きを直接模倣するのではなく,実演を対象中心のガイドとして扱う。
我々は,様々な実世界の操作タスクにおけるシミュレーションと実世界の実験の両方において,我々のアプローチを検証する。
論文 参考訳(メタデータ) (2025-09-25T03:11:07Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - Learning Coordinated Bimanual Manipulation Policies using State Diffusion and Inverse Dynamics Models [22.826115023573205]
我々は人間の操作戦略の予測的性質をロボット模倣学習に注入する。
我々は,将来の状態を予測し,予測状態を達成するロボット動作を計算するために拡散モデルを訓練する。
我々のフレームワークは、常に最先端のステート・ツー・アクション・マッピングポリシーを上回ります。
論文 参考訳(メタデータ) (2025-03-30T01:25:35Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。