論文の概要: RepWAM: World Action Modeling with Representation Visual-Action Tokenizers
- arxiv url: http://arxiv.org/abs/2606.13674v2
- Date: Sat, 13 Jun 2026 07:02:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 13:45:31.218662
- Title: RepWAM: World Action Modeling with Representation Visual-Action Tokenizers
- Title(参考訳): RepWAM:Representation Visual-Action Tokenizersを用いた世界アクションモデリング
- Authors: Junke Wang, Qihang Zhang, Shuai Yang, Yiming Luo, Yujun Shen, Zuxuan Wu, Yu-Gang Jiang, Yinghao Xu,
- Abstract要約: RepWAMは表現中心の世界アクションモデルであり、視覚アクショントークン化器をベースとしている。
我々は、視覚的な入力を協調した視覚的および潜在的なアクショントークンにマッピングする表現的アクショントークンーを訓練する。
次に、将来的な視覚状態と、それらを言語命令で接続する潜在アクションを共同でモデル化するように、WAMを事前訓練する。
- 参考スコア(独自算出の注目度): 120.87642891397853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents RepWAM, a representation-centric world action model (WAM) built on representation visual-action tokenizers. Existing WAMs typically inherit reconstruction-oriented video tokenizers from pretrained video generation models. Although these tokenizers preserve visual fidelity, pixel reconstruction alone provides limited guidance for learning instruction-following dynamics that connect future prediction with robot control. To address this, we explore a semantic visual-action latent space for representation-centric world action modeling. Specifically, we train a representation visual-action tokenizer that maps visual inputs into aligned visual and latent action tokens. We then pretrain our WAM to jointly model future visual states and the latent actions that connect them under language instructions, followed by adaptation to real robot trajectories for closed-loop manipulation. Experiments on real-world manipulation tasks and simulation benchmarks show that RepWAM delivers strong performance across diverse manipulation settings, while ablations highlight the value of semantic visual-action tokenization over reconstruction-oriented alternatives. These results establish representation visual-action tokenization as a promising foundation for world action models and a step toward generalist robot policies. Code and weights will be available at https://github.com/wdrink/RepWAM.
- Abstract(参考訳): 本稿では,表現中心の世界行動モデル(WAM)であるRepWAMについて述べる。
既存のWAMは、通常、事前訓練されたビデオ生成モデルから再構成指向のビデオトークン化器を継承する。
これらのトークン化器は視覚的忠実さを保っているが、画素再構成だけでは、将来の予測とロボット制御を結びつける命令追従ダイナミクスを学習するための限られたガイダンスを提供する。
これを解決するために,表現中心の世界行動モデリングのためのセマンティック・ビジュアル・アクション潜在空間について検討する。
具体的には、視覚的入力を協調した視覚的および潜在的なアクショントークンにマッピングする、視覚的アクショントークンーを訓練する。
次に,将来的な視覚状態と,それらを言語命令で接続する潜在動作を協調的にモデル化するために,WAMを事前訓練し,その後,クローズループ操作のための実際のロボット軌道に適応させる。
実世界の操作タスクとシミュレーションベンチマークの実験では、RepWAMはさまざまな操作設定にまたがって強力なパフォーマンスを提供する一方で、Ablationsでは、再構築指向の代替よりもセマンティックな視覚的アクショントークン化の価値を強調している。
これらの結果は、世界行動モデルのための将来的な基盤として視覚行動トークン化の表現を確立し、汎用ロボットポリシーへの一歩を踏み出した。
コードとウェイトはhttps://github.com/wdrink/RepWAM.comで入手できる。
関連論文リスト
- From Human Videos to Robot Manipulation: A Survey on Scalable Vision-Language-Action Learning with Human-Centric Data [71.22409934108924]
人間のビデオは豊富で、豊富な相互作用を捉え、現実世界の操作に多様な意味と物理的な手がかりを提供する。
この調査は、人間のビデオがビジョン・ランゲージ・アクション(VLA)モデルの効果的な知識にどのように変換されるか、統一された視点を提供する。
この領域では、非構造化動画をトレーニング可能なエピソードに構造化すること、エンボディメントと視点の不均一性の下でロボットが実行可能なアクションにビデオから制御すること、現実世界の展開性能と転送効率をよりよく予測する評価プロトコルを設計すること、の3つのオープンな課題を強調している。
論文 参考訳(メタデータ) (2026-05-18T06:19:16Z) - DynaRend: Learning 3D Dynamics via Masked Future Rendering for Robotic Manipulation [52.136378691610524]
本稿では、3次元認識と動的インフォームド三面体特徴を学習する表現学習フレームワークDynaRendを紹介する。
マルチビューRGB-Dビデオデータに基づく事前トレーニングにより、DynaRendは空間幾何学、将来のダイナミクス、タスク意味を統合された三面体表現で共同でキャプチャする。
我々は、RLBenchとColosseumという2つの挑戦的なベンチマークでDynaRendを評価し、政策成功率、環境摂動の一般化、様々な操作タスクにおける実世界の適用性などを大幅に改善した。
論文 参考訳(メタデータ) (2025-10-28T10:17:11Z) - Latent Action Pretraining Through World Modeling [1.988007188564225]
自己教師型手法で模倣学習モデルを事前学習するためのモデルに依存しないフレームワークであるLAWMを提案する。
当社のフレームワークは,タスクや環境,実施環境の移動に有効であるように設計されています。
論文 参考訳(メタデータ) (2025-09-22T21:19:10Z) - Precise Action-to-Video Generation Through Visual Action Prompts [62.951609704196485]
アクション駆動のビデオ生成は、精度と一般性のトレードオフに直面している。
エージェント中心のアクション信号は、クロスドメイン転送可能性のコストで精度を提供する。
私たちはアクションをドメインに依存しない表現として正確に視覚的なプロンプトに"レンダリング"します。
論文 参考訳(メタデータ) (2025-08-18T17:12:28Z) - ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver [35.25196177784228]
本稿では,暗黙的な基礎パラダイムを持つ再構成型VLAモデルReconVLAを提案する。
拡散変換器は、モデルの視覚出力に基づいて画像の視線領域を再構成する。
このプロセスにより、VLAモデルはきめ細かい表現を学習し、視覚的注意を正確に割り当てる。
論文 参考訳(メタデータ) (2025-08-14T04:20:19Z) - Keypoint Action Tokens Enable In-Context Imitation Learning in Robotics [11.88216611522207]
市販のテキストベースのトランスフォーマーは、追加の訓練を伴わずに、数発のインコンテクスト・イン・コンテクスト・ビジュアル・模倣学習を行うことができることを示す。
テキストプリトレーニングされたトランスフォーマーが取り込み、生成できるトークンのシーケンスに視覚的観察を変換することで、これを実現する。
これらのトランスフォーマーは, 言語のみに基づいて訓練されているにもかかわらず, トークン化された視覚的キーポイントの観察を行動軌跡に翻訳することに優れていた。
論文 参考訳(メタデータ) (2024-03-28T17:04:00Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。