論文の概要: Mem-World: Memory-Augmented Action-Conditioned World Models for Persistent Robot Manipulation
- arxiv url: http://arxiv.org/abs/2606.18960v2
- Date: Thu, 18 Jun 2026 07:33:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 13:55:51.900803
- Title: Mem-World: Memory-Augmented Action-Conditioned World Models for Persistent Robot Manipulation
- Title(参考訳): Mem-World:永続ロボットマニピュレーションのためのメモリ拡張アクションコンディション世界モデル
- Authors: Zirui Zheng, Jiaqian Yu, Xiongfeng Peng, jun shi, Mingyi Li, Chao Zhang, Weiming Li, Dong Wang, Huchuan Lu, Xu Jia,
- Abstract要約: アクション条件付き世界モデルは、ロボット学習の有望なパラダイムとして登場した。
Mem-Worldはメモリ拡張されたマルチビューアクション条件の世界モデルである。
W-VMemは4次元手首ビュー中心のサーベイルインデクシングメモリで、歴史的観測を時間的に変化する表面要素に固定する。
- 参考スコア(独自算出の注目度): 55.42006264038458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action-conditioned world models have emerged as a promising paradigm for robot learning, offering a scalable alternative to costly real-world experimentation by generating action-consistent video rollouts. However, persistent world modeling remains challenging in manipulation: frequent end-effector occlusions and rapid wrist-camera motion make the current observation insufficient for predicting future views, causing models to forget or hallucinate scene details seen in earlier frames. Existing memory retrieval strategies often fail to identify informative history in dynamic manipulation scenarios. To address this limitation, we propose Mem-World, a memory-augmented multi-view action-conditioned world model. At its core, we present W-VMem, a 4D wrist-view-centered surfel-indexed memory that anchors historical observations to temporally evolving surface elements. By explicitly modeling when and where scene elements are observed, W-VMem enables geometry-aware retrieval of relevant history frames conditioned on future actions. During generation, relevant history frames are selected via surfel-based rendering and scoring, providing informative and non-redundant context for prediction. Extensive experiments show that Mem-World generates persistent rollouts in complex manipulation scenarios, enables more reliable policy evaluation than Ctrl-World, improving the Pearson correlation with real-world performance by 14.5\%, and supports effective policy improvement through synthetic data generation, increasing success rates from 58\% to 72\% on long-horizon tasks.
- Abstract(参考訳): アクション条件付き世界モデルは、ロボット学習の有望なパラダイムとして登場し、アクション一貫性のあるビデオロールアウトを生成することで、コストのかかる実世界の実験に代わるスケーラブルな代替手段を提供する。
頻繁なエンドエフェクターの閉塞と手首カメラの動きは、現在の観察を将来の展望を予測するには不十分にし、モデルが以前のフレームで見られるシーンの詳細を忘れたり幻覚させる原因となった。
既存のメモリ検索戦略は、動的操作シナリオにおける情報的履歴の特定に失敗することが多い。
この制限に対処するため,メモリ拡張多視点アクション条件世界モデルであるMem-Worldを提案する。
中心となるW-VMemは、4D手首ビュー中心のサーベイルインデクシングメモリで、歴史的観測を時間的に変化する表面要素に固定する。
W-VMemは、シーン要素がいつ、どこで観測されるかを明確にモデル化することにより、将来のアクションに照らされた関連する履歴フレームの幾何認識検索を可能にする。
生成中、関連する履歴フレームは、サーベイルベースのレンダリングとスコアリングによって選択され、予測のための情報的および非冗長なコンテキストを提供する。
大規模な実験により、Mem-Worldは複雑な操作シナリオにおける永続的なロールアウトを生成し、Ctrl-Worldよりも信頼性の高いポリシー評価を可能にし、Pearsonと実世界のパフォーマンスの相関を14.5\%改善し、合成データ生成による効果的なポリシー改善をサポートし、長期的なタスクにおける成功率を58\%から72\%に向上した。
関連論文リスト
- RoboDream: Compositional World Models for Scalable Robot Data Synthesis [31.864551794584667]
ロボット学習のスケールには大規模で多様なデモが必要だが、遠隔操作による実世界のデータ収集は極めて高価で時間を要する。
本稿では、新しいオブジェクトでデモを合成することで、スケーラブルなデータ生成を実現する、一般化可能なエンボディメント中心の世界モデルを提案する。
実世界の実験で、生成したデータは、ダウンストリームポリシーのパフォーマンスを一貫して改善し、多様な操作タスクにおける実世界のデータ要求を大幅に低減することを示した。
論文 参考訳(メタデータ) (2026-06-01T17:59:38Z) - Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory [101.2076718776139]
複雑な実環境において,1000フレーム以上のコヒーレントな視覚記憶を維持することのできる,堅牢な対話型世界モデルを提案する。
我々は,歴史的潜水剤を固定予算の幾何学的表現に蒸留するpose-free Memory (HPMC)を導入する。
また,連続動作を三状態論理に識別する不確実性認識型アクションラベルモジュールを提案する。
論文 参考訳(メタデータ) (2026-02-02T17:52:56Z) - Astra: General Interactive World Model with Autoregressive Denoising [73.6594791733982]
Astraはインタラクティブな汎用世界モデルであり、多様なシナリオのために現実世界の未来を生成する。
本稿では,自己回帰型認知型アーキテクチャを提案し,時間的因果的注意を用いて過去の観測を集約する。
Astraはインタラクティブで一貫性があり、一般的な長期的なビデオ予測を実現し、様々な形式のインタラクションをサポートする。
論文 参考訳(メタデータ) (2025-12-09T18:59:57Z) - Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。
映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。
この生成は、環境の永続的な3Dマップに集約される。
論文 参考訳(メタデータ) (2025-05-05T17:59:17Z) - WORLDMEM: Long-term Consistent World Simulation with Memory [20.450750381415965]
WorldMemは、メモリフレームとステートを格納するメモリユニットで構成されるメモリバンクでシーン生成を強化するフレームワークである。
本手法は,重要な視点や時間的ギャップの下でも,事前に観察されたシーンを正確に再構成することができる。
論文 参考訳(メタデータ) (2025-04-16T17:59:30Z) - PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model [23.768571323272152]
PartRMは、静的オブジェクトの多視点画像から外観、幾何学、部分レベルの動きを同時にモデル化する新しい4D再構成フレームワークである。
我々はPartDrag-4Dデータセットを導入し、20,000以上の状態にまたがる部分レベルのダイナミクスを多視点で観察する。
実験結果から,PartRMはロボット工学の操作作業に応用できる部分レベルの動作学習において,新たな最先端技術を確立していることがわかった。
論文 参考訳(メタデータ) (2025-03-25T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。