論文の概要: Action-Effect Memory Pretraining for Robot Manipulation
- arxiv url: http://arxiv.org/abs/2606.12499v1
- Date: Wed, 10 Jun 2026 13:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.370743
- Title: Action-Effect Memory Pretraining for Robot Manipulation
- Title(参考訳): ロボットマニピュレーションのためのアクション・エフェクト・メモリ・プレトレーニング
- Authors: Yijing Zhou, Qiwei Liang, Sitong Zhuang, Jiaxi Li, Xianpeng Wang, Boyang Cai, Yunyang Mo, Renjing Xu,
- Abstract要約: 本稿では,ロボット操作のためのアクション・エフェクト・メモリ事前学習フレームワークであるAEMを紹介する。
AEMは操作の時間的性質を目標としており、現在の観測だけでは部分観測性では不十分であることが多い。
AEMはシミュレーションと実世界の両方の環境での操作性能を継続的に改善する。
- 参考スコア(独自算出の注目度): 14.760244346330694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present AEM, an Action-Effect Memory pretraining framework for robot manipulation that learns compact temporal representations from vision-action history. Unlike prior robot representation pretraining methods that mainly focus on single-frame visual encoding, AEM targets the temporal nature of manipulation, where the current observation alone is often insufficient under partial observability. AEM models manipulation as an action-driven interaction process by interleaving visual and action features and applying masked modeling to recover missing content from incomplete histories, thereby learning action-conditioned state evolution. The Mamba-encoded output of the final vision token is used as a compact history representation, serving as the global context for decoding and downstream control. This design preserves a single-vector temporal bottleneck while keeping inference efficient. We evaluate AEM with Diffusion Policy and Flow Policy. AEM consistently improves manipulation performance in both simulation and real-world settings, outperforming baselines across clean scenes, cluttered and random scenes, and non-Markovian tasks. Ablation studies further show that history-aware pretraining surpasses single-frame pretraining and direct frame stacking, while reducing inference latency and computational cost.
- Abstract(参考訳): 本稿では、視覚行動履歴からコンパクトな時間表現を学習するロボット操作のためのアクション・エフェクト・メモリ事前学習フレームワークであるAEMについて述べる。
単一フレームの視覚的エンコーディングを主眼とする従来のロボット表現事前訓練法とは異なり、AEMは操作の時間的性質を目標としており、現在の観察だけでは部分的観測性では不十分であることが多い。
AEMは、視覚的特徴と行動的特徴をインターリーブし、不完全な履歴から欠落したコンテンツを復元するためにマスク付きモデリングを適用することで、アクション駆動インタラクションプロセスとしての操作をモデル化する。
最終ビジョントークンのMamba符号化された出力は、デコードと下流制御のグローバルコンテキストとして機能するコンパクトな履歴表現として使用される。
この設計は、推論を効率よく保ちながら、単一ベクトルの時間的ボトルネックを保っている。
AEMを拡散政策と流動政策で評価する。
AEMは、シミュレーションと実世界の両方の環境での操作性能を一貫して改善し、クリーンなシーン、散らかったシーンとランダムなシーン、そして非マルコフ的なタスクでベースラインを上回っている。
アブレーション研究により、履歴を意識した事前学習は、推論遅延と計算コストを低減しつつ、単一フレームの事前学習と直接フレームの積み重ねを超越していることが示された。
関連論文リスト
- From Imagined Futures to Executable Actions: Mixture of Latent Actions for Robot Manipulation [88.39072412680633]
将来の映像を実行可能な表現に変換する制御指向インタフェースであるMoLAを提案する。
我々は,シミュレーションベンチマークと実世界のロボット操作タスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2026-05-12T14:15:16Z) - mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。
提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文 参考訳(メタデータ) (2025-12-17T18:47:31Z) - Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。