論文の概要: Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation
- arxiv url: http://arxiv.org/abs/2606.17030v2
- Date: Tue, 16 Jun 2026 16:55:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.835746
- Title: Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation
- Title(参考訳): Qwen-RobotWorld Technical Report: Unified Embodied World Modeling through Language-Conditioned Video Generation
- Authors: Jie Zhang, Xiaoyue Chen, Anzhe Chen, Deqing Li, Gengze Zhou, Hale Yin, Haoqi Yuan, Haoyang Li, Jiahao Li, Jiazhao Zhang, Jingren Zhou, Kaiyuan Gao, Kun Yan, Lihan Jiang, Ningyuan Tang, Pei Lin, Qihang Peng, Shengming Yin, Tianhe Wu, Tianyi Yan, Xiao Xu, Yan Shu, Yanran Zhang, Ye Wang, Yi Wang, Yilei Chen, Yixian Xu, Yiyang Huang, Yuxiang Chen, Zekai Zhang, Zhendong Wang, Zixing Lei, Zhixuan Liang, Zihao Liu, Zikai Zhou, Chenxu Lv, Xiong-Hui Chen, Chenfei Wu,
- Abstract要約: 具体的インテリジェンスのための言語条件付きビデオワールドモデルであるQwen-RobotWorldを紹介する。
ロボット操作、自律運転、屋内ナビゲーション、人間とロボットの移動など、現在の観察結果から、物理的に基礎付けられた将来の視覚軌道を予測する。
- 参考スコア(独自算出の注目度): 80.92703471330982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Qwen-RobotWorld, a language-conditioned video world model for embodied intelligence. With natural language as a unified action interface, it predicts physically grounded future visual trajectories from current observations across robotic manipulation, autonomous driving, indoor navigation, and human-to-robot transfer. This unified formulation provides three promising application directions: synthetic data generation for policy training augmentation, scalable virtual environments for policy evaluation, and language-guided planning signals for downstream robot control. This is achieved through a three-part design: a) Double-Stream MMDiT with MLLM Action Encoding, where a 60-layer double-stream diffusion transformer couples frozen Qwen2.5-VL semantics with video-VAE latents through layer-wise joint attention; b) Embodied World Knowledge (EWK), an 8.6M video-text corpus (200M+ frames) with action-language mapping over 20+ embodiments and 500+ action categories; and c) General+Expert Progressive Curriculum, a two-stage training strategy that first learns general visual priors and then injects embodied specialization under a shared language interface. Extensive results show strong competitiveness: ranks 1st overall on EWMBench and DreamGen Bench, outperforms all open-source models on WorldModelBench and PBench. Additional zero-shot analyses on RoboTwin-IF benchmark further support robust generalization and multi-view consistency.
- Abstract(参考訳): 具体的インテリジェンスのための言語条件付きビデオワールドモデルであるQwen-RobotWorldを紹介する。
自然言語を統合されたアクションインターフェースとして使用することで、ロボット操作、自律運転、屋内ナビゲーション、人間とロボットの移動といった現在の観察から、物理的に基盤付けられた将来の視覚軌道を予測する。
この統合された定式化は、ポリシートレーニング強化のための合成データ生成、ポリシー評価のためのスケーラブルな仮想環境、下流ロボット制御のための言語誘導計画信号の3つの有望な応用方向を提供する。
これは三部構成で達成される。
a) MLLMアクションエンコーディングによる二重ストリームMMDiT
b)Embodied World Knowledge(EWK)は、20以上の実施形態及び500以上の行動カテゴリーにまたがる行動言語マッピングを備えた8.6Mビデオテキストコーパス(200M+フレーム)である。
c) General+Expert Progressive Curriculumは、2段階のトレーニング戦略で、まず一般的な視覚的事前学習を行い、その後、共有言語インタフェースの下で具体化された特殊化を注入する。
EWMBenchとDreamGen Benchは、WorldModelBenchとPBenchのすべてのオープンソースモデルを上回っています。
RoboTwin-IFベンチマークのさらなるゼロショット解析は、堅牢な一般化とマルチビュー一貫性をさらにサポートする。
関連論文リスト
- World-Language-Action Model for Unified World Modeling, Language Reasoning, and Action Synthesis [37.19737492128721]
我々は,新しい基礎モデルのクラスとして,世界言語アクションモデルを提案する。
WLAはテキストのインストラクション、画像、ロボットステートを入力として、テキストのサブタスク、サブゴールイメージ、ロボットアクションを共同で予測する。
We show that WLA-0 achieve a state-of-the-the-art multi-task and long-horizon learning abilities、例えば、RoboTwin2.0 Clean の92.94%、RMBench の56.5%の成功率。
論文 参考訳(メタデータ) (2026-06-04T10:23:01Z) - From Human Videos to Robot Manipulation: A Survey on Scalable Vision-Language-Action Learning with Human-Centric Data [71.22409934108924]
人間のビデオは豊富で、豊富な相互作用を捉え、現実世界の操作に多様な意味と物理的な手がかりを提供する。
この調査は、人間のビデオがビジョン・ランゲージ・アクション(VLA)モデルの効果的な知識にどのように変換されるか、統一された視点を提供する。
この領域では、非構造化動画をトレーニング可能なエピソードに構造化すること、エンボディメントと視点の不均一性の下でロボットが実行可能なアクションにビデオから制御すること、現実世界の展開性能と転送効率をよりよく予測する評価プロトコルを設計すること、の3つのオープンな課題を強調している。
論文 参考訳(メタデータ) (2026-05-18T06:19:16Z) - Multi-View Video Diffusion Policy: A 3D Spatio-Temporal-Aware Video Action Model [43.80385042752741]
MV-VDPは3次元環境を協調的にモデル化する多視点ビデオポリシーである。
MV-VDPはデータ効率、堅牢、一般化可能、解釈可能な操作を可能にする。
Meta-Worldと現実世界のロボットプラットフォームの実験は、MV-VDPがビデオ予測ベース、3Dベース、視覚言語アクションモデルより一貫して優れていることを示した。
論文 参考訳(メタデータ) (2026-04-03T16:57:06Z) - GigaWorld-Policy: An Efficient Action-Centered World--Action Model [50.107640832046464]
GigaWorld-Policyはアクション中心のWAMで、2Dピクセルアクションのダイナミクスを学習し、オプションのビデオ生成で効率的なアクションデコーディングを可能にする。
実世界のロボットプラットフォームでの実験結果によると、GigaWorld-Policyは主要なWAMベースラインであるMotusの9倍高速で動作する。
論文 参考訳(メタデータ) (2026-03-18T00:52:02Z) - Causal World Modeling for Robot Control [56.31803788587547]
ビデオワールドモデルは、アクションと視覚力学の因果関係を理解することによって、近い将来に想像できる能力を提供する。
本稿では,フレーム予測とポリシ実行を同時に学習する自動回帰拡散フレームワークLingBot-VAを紹介する。
シミュレーションベンチマークと実世界のシナリオの両方でモデルを評価したところ、長距離操作、ポストトレーニングにおけるデータ効率、新しい構成への強力な一般化性などに大きな可能性を示唆している。
論文 参考訳(メタデータ) (2026-01-29T17:07:43Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。