論文の概要: Qwen-RobotManip Technical Report: Alignment Unlocks Scale for Robotic Manipulation Foundation Models
- arxiv url: http://arxiv.org/abs/2606.17846v2
- Date: Wed, 17 Jun 2026 17:06:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.783229
- Title: Qwen-RobotManip Technical Report: Alignment Unlocks Scale for Robotic Manipulation Foundation Models
- Title(参考訳): Qwen-RobotManip Technical Report: Orignment Unlocks Scale for Robotic Manipulation Foundation Models
- Authors: Haoqi Yuan, Zhixuan Liang, Anzhe Chen, Ye Wang, Haoyang Li, Pei Lin, Yiyang Huang, Zixing Lei, Tong Zhang, Jiazhao Zhang, Jie Zhang, Jingyang Fan, Gengze Zhou, Qihang Peng, Chenxu Lv, Xiaoyue Chen, An Yang, Fei Huang, Junyang Lin, Dayiheng Liu, Jingren Zhou, Chenfei Wu, Xiong-Hui Chen,
- Abstract要約: 本稿では、Qwen-VL上に構築された一般化可能なビジョン・ランゲージ・アクション基盤モデルであるQwen-RobotManipを提案する。
Qwen-RobotManipは、操作の表現、動き、行動の次元にわたって統合されたアライメントフレームワークを導入している。
人間とロボットの合成パイプラインは、エゴセントリックな手の動きを15プラットフォームにわたるロボットの軌道に変換する。
- 参考スコア(独自算出の注目度): 95.75234389806654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models in language and multimodality achieve strong generalization by aligning heterogeneous data under a unified formulation and training at scale. In this report, we investigate whether this scaling recipe can be applied to robotic manipulation to achieve genuine generalization. This is challenging because, unlike text, manipulation data is heterogeneous by nature, expensive to collect, and narrow in diversity, making alignment and scale simultaneously difficult. We present Qwen-RobotManip, a generalizable Vision-Language-Action foundation model built on Qwen-VL. Qwen-RobotManip introduces a unified alignment framework across the representation, motion, and behavioral dimensions of manipulation, making large-scale multi-source training coherent rather than conflicting. This alignment capability in turn enables Qwen-RobotManip to absorb manipulation data at a scale that prior training regimes could not sustain. A human-to-robot synthesis pipeline converts egocentric hand demonstrations into robot trajectories across 15 platforms, and a rigorous curation pipeline harmonizes heterogeneous datasets. Using only open-source datasets and human videos without proprietary data collection, Qwen-RobotManip constructs a ~38,100-hour pretraining corpus and exhibits emergent generalization capabilities, including zero-shot instruction following, robustness to perturbations, reactive error recovery, and cross-embodiment transfer. We find that standard benchmarks fail to capture pretraining quality and instead adopt OOD settings including RoboCasa365, LIBERO-Plus, EBench, RoboTwin-Clean2Rand, RoboTwin-IF, and RoboTwin-XE. Qwen-RobotManip substantially outperforms prior state-of-the-art models, including $π$0.5, across all OOD settings, ranks 1st in RoboChallenge with a 20% relative improvement, and is validated on real-robot platforms including AgileX ALOHA, Franka, UR, and ARX.
- Abstract(参考訳): 言語とマルチモーダリティの基盤モデルは、統一された定式化と大規模トレーニングの下で異種データを整列させることにより、強力な一般化を実現する。
本稿では,このスケーリング手法をロボット操作に適用して,真の一般化を実現するかを検討する。
テキストとは異なり、データ操作は本質的に不均一であり、収集コストが高く、多様性が狭く、アライメントとスケールを同時に困難にしているため、これは難しい。
本稿では、Qwen-VL上に構築された一般化可能なビジョン・ランゲージ・アクション基盤モデルであるQwen-RobotManipを提案する。
Qwen-RobotManipは、操作の表現、動き、行動の次元にわたって統一されたアライメントフレームワークを導入し、競合するのではなく、大規模なマルチソーストレーニングをコヒーレントにする。
このアライメント機能により、Qwen-RobotManipは、事前のトレーニング体制が維持できないスケールで操作データを吸収することができる。
人間のロボット合成パイプラインは、エゴセントリックな手の動きを15プラットフォームにわたるロボット軌道に変換し、厳密なキュレーションパイプラインは異種データセットを調和させる。
Qwen-RobotManipは、プロプライエタリなデータ収集のない、オープンソースデータセットとヒューマンビデオのみを使用して、約38,100時間の事前トレーニングコーパスを構築し、ゼロショットインストラクションのフォロー、摂動に対する堅牢性、リアクティブエラーリカバリ、クロスエボデーション転送など、突発的な一般化機能を示す。
標準ベンチマークはトレーニング前の品質を捉えず、代わりにRoboCasa365、LIBERO-Plus、EBench、RoboTwin-Clean2Rand、RoboTwin-IF、RoboTwin-XEといったOOD設定を採用する。
Qwen-RobotManipは、すべてのOOD設定で$π$0.5を含む最先端のモデルを大幅に上回り、RoboChallengeで20%改善され、AgileX ALOHA、Franka、UR、ARXといった実際のロボットプラットフォームで検証されている。
関連論文リスト
- XRZero-G0: Pushing the Frontier of Dexterous Robotic Manipulation with Interfaces, Quality and Ratios [10.349987856533723]
XRZero-G0(XRZero-G0)は、データ収集とポリシー学習のためのハードウェアとソフトウェアの共同設計システムである。
我々は、目標となる物理ロボットにゼロショットのクロスボデーメント転送を可能にする2000時間ロボットフリーデータセットを構築した。
論文 参考訳(メタデータ) (2026-04-14T17:34:21Z) - UltraDexGrasp: Learning Universal Dexterous Grasping for Bimanual Robots with Synthetic Data [70.96218513410454]
両面ロボットを用いた普遍的デクスタラスグリップのためのフレームワークであるUltraDexGraspを紹介する。
提案したデータ生成パイプラインは、最適化に基づくグリップ合成と計画に基づくデモ生成を統合する。
我々はUltraDexGrasp-20Mに基づいて、点雲を入力とし、一方向の注意を通してシーン特徴を集約し、制御コマンドを予測する、シンプルで効果的な把握ポリシーを開発した。
論文 参考訳(メタデータ) (2026-03-05T15:54:21Z) - MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training [102.850162490626]
人間のロボットによる相互模倣事前学習による視覚-言語-行動モデルであるMiVLAを提案する。
MiVLAは、最先端のVLAよりも優れた、強力な改良された一般化能力を実現する。
論文 参考訳(メタデータ) (2025-12-17T12:59:41Z) - H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation [27.585828712261232]
H-RDT(Human to Robotics Diffusion Transformer)は、人間の操作データを利用してロボット操作能力を向上する新しいアプローチである。
私たちの重要な洞察は、大規模なエゴセントリックな人間操作ビデオとペアの3Dハンドポーズアノテーションが、自然な操作戦略を捉えたリッチな行動優先を提供するということです。
本研究では,(1)大規模な人間操作データに対する事前トレーニング,(2)モジュール型アクションエンコーダとデコーダを用いたロボット固有のデータに対するクロスエボディメント微調整という2段階の訓練パラダイムを導入する。
論文 参考訳(メタデータ) (2025-07-31T13:06:59Z) - RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation [52.2244588424002]
我々は,多様かつ現実的なデータの自動生成のためのスケーラブルなフレームワークであるRoboTwin 2.0を紹介する。
コアとなるRoboTwin-ODは、セマンティックおよび操作関連アノテーションを備えた147カテゴリにわたる771インスタンスのオブジェクトライブラリである。
sim-to-real転送を改善するために、RoboTwin 2.0は5つの軸に沿って構造化された領域ランダム化を適用する。
論文 参考訳(メタデータ) (2025-06-22T16:26:53Z) - RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation [23.554917579133576]
本稿では,ロボット拡散変換器(RDT)について述べる。
RDTは、マルチモーダリティを効果的に表現するために拡散モデルを構築し、スケーラブルトランスフォーマーの革新的な設計である。
さらに,様々なロボットの動作表現を統一する物理解釈可能な統一行動空間を導入する。
論文 参考訳(メタデータ) (2024-10-10T12:33:46Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。