論文の概要: MemoryWAM: Efficient World Action Modeling with Persistent Memory
- arxiv url: http://arxiv.org/abs/2606.20562v1
- Date: Thu, 18 Jun 2026 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:40.057339
- Title: MemoryWAM: Efficient World Action Modeling with Persistent Memory
- Title(参考訳): MemoryWAM: 永続メモリを用いた効率的な世界アクションモデリング
- Authors: Sizhe Yang, Juncheng Mu, Tianming Wei, Chenhao Lu, Xiaofan Li, Linning Xu, Zhengrong Xue, Zhecheng Yuan, Dahua Lin, Jiangmiao Pang, Huazhe Xu,
- Abstract要約: 本稿では,効率的な永続メモリを持つ世界アクションモデルであるMemoryWAMを紹介する。
調整された注意機構は、詳細な短期コンテキストと圧縮された長期コンテキストの両方の検索を可能にする。
MemoryWAMは、シミュレーションと実世界の両方において、強力な視覚言語アクション(VLA)とWAMベースラインを上回っている。
- 参考スコア(独自算出の注目度): 80.90899269062128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust robotic manipulation in the real world requires not only an understanding of the current observation, but also memory and dynamics modeling. World action models (WAMs) possess these capabilities by jointly modeling visual foresight and actions conditioned on both current and historical observations, making them a promising paradigm for robotic manipulation. However, existing WAMs face a fundamental trade-off: methods with efficient inference typically condition only on a bounded window of recent observations and therefore struggle in non-Markovian environments, whereas methods that preserve long histories incur time and space costs that grow substantially with sequence length. To address this challenge, we introduce MemoryWAM, a world action model with efficient persistent memory. MemoryWAM uses a hybrid memory design that combines recent frames, event-boundary anchor frames, and compact gist tokens that summarize long-range history. A tailored attention mechanism enables retrieval of both detailed short-term context and compressed long-term context, supporting memory-dependent decision-making with reduced inference latency and GPU memory usage. Across long-horizon, memory-dependent manipulation tasks in both simulation and the real world, MemoryWAM outperforms strong vision-language-action (VLA) and WAM baselines while maintaining favorable computational efficiency.
- Abstract(参考訳): 実世界でのロバストなロボット操作は、現在の観察の理解だけでなく、記憶と力学のモデリングも必要である。
世界行動モデル(WAM)は、現在の観測と歴史的観測の両方に条件づけられた視覚的視力と行動を共同でモデル化することで、ロボット操作のための有望なパラダイムである。
しかし、既存のWAMは基本的なトレードオフに直面している: 効率的な推論を持つ手法は、通常は最近の観測の有界な窓上でのみ条件を定め、したがって非マルコフ環境で苦労する。
この課題に対処するために,効率的な永続メモリを持つ世界アクションモデルであるMemoryWAMを紹介した。
MemoryWAMは、最近のフレーム、イベント境界アンカーフレーム、長距離履歴を要約したコンパクトなギストトークンを組み合わせたハイブリッドメモリ設計を使用する。
調整された注意機構により、詳細な短期コンテキストと圧縮された長期コンテキストの両方の検索が可能になり、推論遅延の低減とGPUメモリ使用量によるメモリ依存意思決定をサポートする。
メモリWAMは、長期にわたって、シミュレーションと実世界の両方におけるメモリ依存の操作タスクの中で、強力な視覚言語アクション(VLA)とWAMベースラインを上回り、計算効率を良好に維持する。
関連論文リスト
- HiMem-WAM: Hierarchical Memory-Gated World Action Models for Robotic Manipulation [12.167895321305464]
動作中心の潜伏動作、ハイレベルなスキル潜伏動作、境界トリガーによるメモリ更新を統合した階層型メモリゲート型WAMであるHiMem-WAMを提案する。
具体的には,低レベル動作と高レベルスキル潜伏者を協調的に学習する階層型潜伏行動フレームワークを開発する。
境界対応メモリゲートは、予測されたスキル遷移時にコンパクトなタスク状態を書き、将来のビデオや光フロー推定をテスト時間生成することなく因果推論を可能にする。
論文 参考訳(メタデータ) (2026-06-09T03:22:34Z) - MemoryVLA++: Temporal Modeling via Memory and Imagination in Vision-Language-Action Models [80.70528162709276]
効果的な制御は過去の相互作用の記憶と将来の状態の想像を必要とするため、ロボット操作には時間モデリングが不可欠である。
本稿では,VLAモデルにメモリと想像力を付与し,ロボット操作のためのフル時間モデリングフレームワークであるMemoryVLA++を提案する。
提案手法は,Libero,SimplerEnv,Mikasa-Robo,Calvin,Libero-Plus,多種多様な実ロボットタスクにまたがって高い性能を実現する。
論文 参考訳(メタデータ) (2026-06-08T17:59:53Z) - MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios [33.8882826707344]
MemGroundは、リッチでゲーミフィケーションされたインタラクティブシナリオを基盤とした、厳格な長期メモリベンチマークである。
メモリ利用と行動軌跡の両方を包括的に定量化するために,多次元計量スイートを提案する。
論文 参考訳(メタデータ) (2026-03-23T02:57:39Z) - RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies [54.23445842621374]
記憶は、長い水平と歴史に依存したロボット操作にとって重要である。
近年,視覚言語アクション(VLA)モデルにメモリ機構が組み込まれ始めている。
本稿では,VLAモデルの評価と進展のための大規模標準ベンチマークであるRoboMMEを紹介する。
論文 参考訳(メタデータ) (2026-03-04T21:59:32Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.18498389833308]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文 参考訳(メタデータ) (2025-06-18T17:06:28Z) - Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。
メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-05-26T16:12:41Z) - WORLDMEM: Long-term Consistent World Simulation with Memory [20.450750381415965]
WorldMemは、メモリフレームとステートを格納するメモリユニットで構成されるメモリバンクでシーン生成を強化するフレームワークである。
本手法は,重要な視点や時間的ギャップの下でも,事前に観察されたシーンを正確に再構成することができる。
論文 参考訳(メタデータ) (2025-04-16T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。