論文の概要: Scaling Short-Term Memory of Visuomotor Policies for Long-Horizon Tasks
- arxiv url: http://arxiv.org/abs/2606.16178v1
- Date: Mon, 15 Jun 2026 03:49:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.06227
- Title: Scaling Short-Term Memory of Visuomotor Policies for Long-Horizon Tasks
- Title(参考訳): 長期作業におけるビジュモータポリシーの短期記憶のスケーリング
- Authors: Rutav Shah, Rajat Kumar Jenamani, Xiaohan Zhang, Lingfeng Sun, Roberto Martín-Martín, Yuke Zhu, Deva Ramanan, Karl Schmeckpeper,
- Abstract要約: 本稿では,短期記憶を利用するビジュモータポリシーのためのトランスフォーマーベースのアーキテクチャであるPRISMを提案する。
海賊フィルタは情報を取得し、関連する詳細を抑え、性能を向上する。
階層アーキテクチャは、ローカル情報をコンパクトなトークンに圧縮し、計算とメモリフットプリントを改善する。
- 参考スコア(独自算出の注目度): 69.19366746169906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many robotic tasks require short-term memory, whether it's retrieving an object that's no longer visible or turning off an appliance after a set period. Yet, most visuomotor policies trained via imitation learning rely only on immediate sensory input without using past experiences to guide decisions. We present PRISM, a transformer-based architecture for visuomotor policies to effectively use short-term memory via two key components: (i) gated attention, which filters retrieved information to suppress irrelevant details, improving performance by reducing the spurious correlations between the history and current action prediction, (ii) a hierarchical architecture that first compresses local information into compact tokens and then integrates them to capture temporally extended dependencies, improving its compute and memory footprint. Together, these mechanisms enable us to scale short-term memory in visuomotor policies for up to two minutes. To systematically evaluate memory in visuomotor control, we introduce ReMemBench -- a benchmark of eight diverse household manipulation tasks spanning four categories of short-term memory -- designed to foster general memory mechanisms rather than siloed, task-specific solutions. PRISM consistently outperforms prior works, including recurrent architectures, transformers, and their variants -- achieving an absolute improvement of 5%--12% over the strongest baseline. On the RoboCasa and LIBERO benchmarks, it achieves absolute improvements of 11%--15% over its no-memory variant and fine-tuned Vision-Language-Action baselines such as GR00T-N1-3B and OpenVLA, despite not leveraging any large-scale pretraining. Together, PRISM and ReMemBench establish a foundation for developing and evaluating short-term memory-augmented visuomotor policies that scale to long-horizon tasks. Additional materials are available at https://shahrutav.github.io/short-term-memory
- Abstract(参考訳): 多くのロボットタスクには短期記憶が必要で、もはや見えない物体を回収したり、一定期間後にアプライアンスをオフにしたりします。
しかし、模倣学習を通じて訓練されたほとんどの自覚的政策は、過去の経験を駆使して意思決定を導くことなく、即時感覚入力にのみ依存する。
PRISMは,2つのキーコンポーネントを介して短期記憶を効果的に利用する,ビジュモータポリシーのためのトランスフォーマーベースのアーキテクチャである。
一 履歴と現在の行動予測の急激な相関を低減し、検索した情報をフィルタリングして無関係な詳細を抑えること。
(i)まずローカル情報をコンパクトなトークンに圧縮し、それを統合して時間的に拡張された依存関係をキャプチャし、計算とメモリフットプリントを改善する階層アーキテクチャ。
これらの機構により、最大2分間のビジュモータポリシーで短期記憶を拡張できる。
ビジュモータ制御においてメモリを体系的に評価するために,シロ化されたタスク固有のソリューションではなく,一般的なメモリ機構を育むように設計された,短期記憶の4つのカテゴリにまたがる8種類の家庭用操作タスクのベンチマークであるReMemBenchを紹介した。
PRISMは、リカレントアーキテクチャ、トランスフォーマー、およびそれらの変種を含む以前の作業よりも一貫して優れており、最強のベースラインに対して5%から12%の絶対的な改善を実現している。
RoboCasa と LIBERO のベンチマークでは、大規模な事前トレーニングを使わずに、無メモリの変種と GR00T-N1-3B や OpenVLA などの微調整されたビジョン・ランゲージ・アクションベースラインに対して、11%--15% の絶対的な改善を実現している。
PRISMとReMemBenchは共に、長期的タスクにスケールする短期記憶増強型ビズモータポリシーの開発と評価の基礎を確立した。
追加資料はhttps://shahrutav.github.io/short-term-Memoryで公開されている。
関連論文リスト
- RoboMemArena: A Comprehensive and Challenging Robotic Memory Benchmark [49.16825786282095]
記憶はロボットインテリジェンスにとって重要な要素であり、ロボットは長期のタスクを達成するために過去の観察と行動に頼る必要がある。
既存のロボットメモリベンチマークには、メモリ形成のためのマルチモーダルアノテーションがなく、タスクカバレッジと構造的複雑さが制限されており、実際の評価なしにシミュレーションに制限されている。
このギャップに対処するため、26タスクの大規模ベンチマークであるRoboMemArenaでは、タスク毎の平均軌道長が1,000ステップを超え、サブタスクの68.9%がメモリ依存である。
論文 参考訳(メタデータ) (2026-05-11T17:54:49Z) - MemoAct: Atkinson-Shiffrin-Inspired Memory-Augmented Visuomotor Policy for Robotic Manipulation [6.490934654648497]
MemoActは階層的なメモリベースのポリシーであり、特定のボトルネックに対処するために異なるメモリ層を利用する。
MemoActは、既存のMarkovianベースラインと履歴対応ポリシーの両方と比較して、優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-03-19T05:02:43Z) - RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies [54.23445842621374]
記憶は、長い水平と歴史に依存したロボット操作にとって重要である。
近年,視覚言語アクション(VLA)モデルにメモリ機構が組み込まれ始めている。
本稿では,VLAモデルの評価と進展のための大規模標準ベンチマークであるRoboMMEを紹介する。
論文 参考訳(メタデータ) (2026-03-04T21:59:32Z) - RMBench: Memory-Dependent Robotic Manipulation Benchmark with Insights into Policy Design [77.30163153176954]
RMBenchは、メモリの複雑さの複数のレベルにまたがる9つの操作タスクからなるシミュレーションベンチマークである。
Mem-0は、制御アブレーション研究をサポートするために設計された明示的なメモリコンポーネントを備えたモジュラー操作ポリシーである。
既存のポリシにおけるメモリ関連の制限を特定し、アーキテクチャ設計の選択がメモリパフォーマンスに与える影響に関する実証的な洞察を提供する。
論文 参考訳(メタデータ) (2026-03-01T18:59:59Z) - Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。
既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。
本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文 参考訳(メタデータ) (2026-01-05T08:24:16Z) - Preference-Aware Memory Update for Long-Term LLM Agents [27.776042930733784]
LLMベースのエージェントの推論能力に影響を与える重要な要因の1つは、長期記憶を活用する能力である。
本稿では、動的かつパーソナライズされたメモリリファインメントを実現するためのPreference-Aware Memory Update Mechanism (PAMU)を提案する。
論文 参考訳(メタデータ) (2025-10-10T06:49:35Z) - ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL [48.214881182054164]
本研究では,外部メモリを構造化したトランスアーキテクチャであるEMMURを提案する。
ELMURは、注意窓の向こうに10万倍の有効地平線を拡大する。
最大100万歩の廊下を持つ合成T-Mazeタスクで100%の成功率を達成する。
論文 参考訳(メタデータ) (2025-10-08T15:50:34Z) - MeMSVD: Long-Range Temporal Structure Capturing Using Incremental SVD [27.472705540825316]
本論文は、長時間の時間窓上での人間の行動を認識すること(最大数分)を目標とする長期映像理解について述べる。
本稿では,Singular Value Decomposition を用いて取得したメモリの低ランク近似に基づくアテンションベースのスキームの代替を提案する。
提案手法には2つの利点がある: (a) 複雑度を1桁以上削減し, (b) メモリベース計算の効率的な実装が可能である。
論文 参考訳(メタデータ) (2024-06-11T12:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。