Fugu-MT 論文翻訳(概要): Remember what you did?: Learning Behavioral Memories for Partially Observable Object Manipulation

論文の概要: Remember what you did?: Learning Behavioral Memories for Partially Observable Object Manipulation

arxiv url: http://arxiv.org/abs/2606.21188v1
Date: Fri, 19 Jun 2026 07:56:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-26 07:34:36.459566
Title: Remember what you did?: Learning Behavioral Memories for Partially Observable Object Manipulation
Title（参考訳）: あなたが何をしたか覚えているか: 部分的に観察可能なオブジェクト操作のための行動記憶の学習
Authors: Kuancheng Wang, Seungho Yeom, Jinglin Cao, Yuheng Zhi, Nikhil Shinde, Michael Yip,
Abstract要約: 圧縮行動記憶ポリシー(CAMP)について紹介する。 CAMPは、ロボット自身の行動履歴が、高度に情報的かつ自己管理的な信号として機能する、という洞察に基づいている。 CAMPを4つの実ロボット・セットアップと2つの新しいシミュレーション・ベンチマークで評価した。
参考スコア（独自算出の注目度）: 1.5192151934554061
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Long horizon, contact-rich manipulation is inherently partially observable. This is as a single visual observation rarely captures a robot's full action context, including prior attempts, interactions, or progress. Consequently, standard visuomotor policies or vision-language-action models are prone to struggle in such tasks due to a lack of memory. To address this, we introduce Compressed Action Memory Policy (CAMP) based on the insight that a robot's own action history serves as a highly informative, self-supervised signal, enabling the policy to learn a robust, compact history representation. In our approach, we train a memory module to maintain a compressed representation of past actions, forcing it to encode a latent behavioral memory of all the robot's past interactions that can then be used to better contextualize future actions. This allows our approach to implicitly track generalized task progress and learn from failed attempts without any additional supervision, or external oversight. We evaluate CAMP across four real-robot setups and two novel simulation benchmarks: Memory-T-Bench and Memory-Manip-Bench. By demonstrating substantial gains over state-of-the-art baselines, CAMP is, to our knowledge, the first policy to demonstrate substantial success on contact-rich partially observable manipulation tasks purely through learned memory.
Abstract（参考訳）: 長い地平線、接触リッチな操作は本質的に部分的に観察可能である。これは、単一の視覚的な観察が、事前の試行、インタラクション、進歩を含む、ロボットの完全なアクションコンテキストをほとんど捉えないためである。その結果、標準的なビジュモータポリシーや視覚言語アクションモデルは、メモリ不足のためにそのようなタスクに苦しむ傾向にある。そこで本研究では,ロボット自身の行動履歴が高度に情報的かつ自己管理的な信号として機能し,堅牢でコンパクトな歴史表現を学習可能にすることを踏まえて,圧縮行動記憶ポリシー(CAMP)を導入する。提案手法では,過去の動作の圧縮表現を維持するためにメモリモジュールをトレーニングし,ロボットの過去のインタラクションの潜在行動記憶を符号化し,将来的な動作の文脈的改善に使用できるようにした。これにより、我々のアプローチは、一般化されたタスクの進捗を暗黙的に追跡し、追加の監督や外部の監視なしに失敗した試みから学ぶことができます。実ロボットの4つのセットアップと2つの新しいシミュレーションベンチマーク(Memory-T-BenchとMemory-Manip-Bench)でCAMPを評価した。 CAMPは、最先端のベースラインに対して実質的な向上を示すことで、私たちの知る限り、学習記憶を通して純粋に、接触に富んだ部分観測可能な操作タスクにおいて、大きな成功を示す最初のポリシーです。

関連論文リスト

MemoryWAM: Efficient World Action Modeling with Persistent Memory [80.90899269062128]
本稿では,効率的な永続メモリを持つ世界アクションモデルであるMemoryWAMを紹介する。調整された注意機構は、詳細な短期コンテキストと圧縮された長期コンテキストの両方の検索を可能にする。 MemoryWAMは、シミュレーションと実世界の両方において、強力な視覚言語アクション(VLA)とWAMベースラインを上回っている。
論文参考訳（メタデータ） (2026-06-18T17:59:51Z)
MemoryVLA++: Temporal Modeling via Memory and Imagination in Vision-Language-Action Models [80.70528162709276]
効果的な制御は過去の相互作用の記憶と将来の状態の想像を必要とするため、ロボット操作には時間モデリングが不可欠である。本稿では,VLAモデルにメモリと想像力を付与し,ロボット操作のためのフル時間モデリングフレームワークであるMemoryVLA++を提案する。提案手法は,Libero,SimplerEnv,Mikasa-Robo,Calvin,Libero-Plus,多種多様な実ロボットタスクにまたがって高い性能を実現する。
論文参考訳（メタデータ） (2026-06-08T17:59:53Z)
MEM: Multi-Scale Embodied Memory for Vision Language Action Models [73.3883864595845]
本稿では,マルチスケール・エンボダイドメモリ(MEM)について紹介する。 MEMはビデオベースの短水平メモリをビデオエンコーダで圧縮し、テキストベースの長水平メモリと組み合わせている。 MEMは、キッチンを掃除したり、チーズサンドイッチを焼いたりして、最大15分間のタスクをロボットが実行できるようにする。
論文参考訳（メタデータ） (2026-03-04T00:03:02Z)
RMBench: Memory-Dependent Robotic Manipulation Benchmark with Insights into Policy Design [77.30163153176954]
RMBenchは、メモリの複雑さの複数のレベルにまたがる9つの操作タスクからなるシミュレーションベンチマークである。 Mem-0は、制御アブレーション研究をサポートするために設計された明示的なメモリコンポーネントを備えたモジュラー操作ポリシーである。既存のポリシにおけるメモリ関連の制限を特定し、アーキテクチャ設計の選択がメモリパフォーマンスに与える影響に関する実証的な洞察を提供する。
論文参考訳（メタデータ） (2026-03-01T18:59:59Z)
MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation [59.31354761628506]
このようなタスクは本質的にマルコフ的ではないが、主流のVLAモデルはそれを見落としているため、ロボット操作には時間的コンテキストが不可欠である。本稿では,長距離ロボット操作のためのコグニション・メモリ・アクション・フレームワークであるMemoryVLAを提案する。本稿では,3つのロボットを対象とした150以上のシミュレーションと実世界のタスクについて評価する。
論文参考訳（メタデータ） (2025-08-26T17:57:16Z)
Semantic HELM: A Human-Readable Memory for Reinforcement Learning [9.746397419479445]
人間の言語における過去の出来事を表現する新しい記憶機構を提案する。私たちは、部分的に観測可能な環境のセットでメモリメカニズムをトレーニングし、それがメモリコンポーネントを必要とするタスクに優れていることを見つけます。メモリメカニズムは人間が読めるので、エージェントのメモリを覗き見して、重要な情報が保存されているかどうかを確認することができます。
論文参考訳（メタデータ） (2023-06-15T17:47:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。