論文の概要: $μ$VLA: On Recurrent Memory for Partially Observable Manipulation in VLA Models
- arxiv url: http://arxiv.org/abs/2606.12497v1
- Date: Wed, 10 Jun 2026 13:26:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.368452
- Title: $μ$VLA: On Recurrent Memory for Partially Observable Manipulation in VLA Models
- Title(参考訳): $μ$VLA: VLAモデルにおける部分観測可能な操作のためのリカレントメモリについて
- Authors: Egor Cherepanov, Nikita Kachaev, Daniil Zelezetsky, Aydar Bulatov, Artem Pshenitsyn, Yuri Kuratov, Alexey Skrynnik, Aleksandr I. Panov, Alexey K. Kovalev,
- Abstract要約: 本研究は,VLA背骨の再発の制御的分離について検討した。
我々の定式化は、タイムステップにまたがる学習可能なメモリトークンの小さなセットでトランスフォーマーを強化します。
我々はこれらの結果を,背骨内再発の最小限のエンベロープの校正と解釈する。
- 参考スコア(独自算出の注目度): 44.66763491853812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language-action (VLA) models predict chunks of future actions from the current observation, an assumption that fails under partial observability, where decisions depend on information no longer visible. Existing memory-augmented VLAs simultaneously introduce recurrence, retrieval, compression modules, auxiliary objectives, hierarchical memory, or task-specific architectural changes, so the contribution of recurrence itself remains entangled with surrounding machinery. We present a controlled isolation study of recurrence in a strong pretrained VLA backbone. Our formulation augments the transformer with a small set of learnable memory tokens carried across timesteps and updated through self-attention, trained end to end with truncated backpropagation through time, with no auxiliary losses and no architectural changes. We instantiate this as $μ$VLA, a family of OpenVLA-OFT variants parameterized by memory width m, TBPTT length K, and the memory update rule (cross-step gradients or a detached EMA), so that recurrence is the only varying factor. On MIKASA-Robo, $μ$VLA improves average success rate on five training tasks from 0.42 to 0.84 at the strongest setting and reaches 0.23 on held-out tasks with the same memory structure versus 0.07 for the memoryless baseline. On tasks requiring different memory structure, performance remains near baseline. On LIBERO, the strongest recurrent variant achieves 96.2% average success, indicating no regression under full observability. We interpret these results as a calibration of the capability envelope of minimal in-backbone recurrence, identifying the regime in which it is sufficient and the regime where additional memory structure is required. Demos and videos can be found in https://avanturist322.github.io/mu-vla/.
- Abstract(参考訳): ビジョン・ランゲージ・アクション(VLA)モデルは、現在の観測から将来の行動の塊を予測する。
既存のメモリ拡張VLAは同時に、繰り返し、検索、圧縮モジュール、補助目的、階層記憶、タスク固有のアーキテクチャ変更を導入している。
本研究は,VLA背骨の再発の制御的分離について検討した。
我々の定式化は、学習可能なメモリトークンの小さなセットをタイムステップに移動させ、自己アテンションを通じて更新し、トレーニングされたエンドツーエンドを、時間の経過とともに切り詰められたバックプロパゲーションで、補助的な損失もアーキテクチャ上の変更も無く拡張します。
メモリ幅m, TBPTT 長さK, メモリ更新規則(クロスステップ勾配, 切り離されたEMA)でパラメータ化された OpenVLA-OFT 変種族である$μ$VLA とみなす。
MIKASA-Roboでは、$μ$VLAは最強設定で5つのトレーニングタスクの平均成功率を0.42から0.84に改善し、同じメモリ構造を持つホールドアウトタスクでは0.23に達する。
異なるメモリ構造を必要とするタスクでは、パフォーマンスはベースラインに近いままである。
LIBEROでは、最も強いリカレントな変種は96.2%の平均的な成功を達成し、完全な可観測性の下での回帰は示さない。
我々は,これらの結果を,背骨内再発の最小限のエンベロープのキャリブレーションとして解釈し,それが十分である状態と追加のメモリ構造を必要とする状態とを同定する。
デモとビデオはhttps://avanturist322.github.io/mu-vla/で見ることができる。
関連論文リスト
- EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents [80.59925936278162]
本稿では,自己進化型メモリアーキテクチャであるEvolveMemについて述べる。
このクローズループの自己進化はAutoResearchプロセスを実現している。システムは自力で独自のアーキテクチャ上で反復的な研究サイクルを実行し、手動構成のチューニングを置き換える。
論文 参考訳(メタデータ) (2026-05-13T17:12:44Z) - HELM: Harness-Enhanced Long-horizon Memory for Vision-Language-Action Manipulation [2.9231828959903474]
VLA(Vision-Language-Action)モデルは、短軸性能が強いにもかかわらず、長軸操作タスクにおいて体系的に失敗する。
この失敗は、現在のリアクティブ実行設定でコンテキスト長だけを拡張することで解決されないことを示す。
HELMは3つのコンポーネントでこれらの欠陥に対処するモデルに依存しないフレームワークである。
論文 参考訳(メタデータ) (2026-04-20T19:57:35Z) - ReMem-VLA: Empowering Vision-Language-Action Model with Memory via Dual-Level Recurrent Queries [45.23935281952228]
本稿では、2組の学習可能なクエリを備えた視覚言語アクション(VLA)モデルであるReMem-VLAを紹介する。
これらのクエリはエンドツーエンドでトレーニングされ、時間とともに関連するコンテキストを集約し、維持する。
ReMem-VLAは複数の次元にまたがる強力なメモリ能力を示す。
論文 参考訳(メタデータ) (2026-03-13T12:38:42Z) - RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies [54.23445842621374]
記憶は、長い水平と歴史に依存したロボット操作にとって重要である。
近年,視覚言語アクション(VLA)モデルにメモリ機構が組み込まれ始めている。
本稿では,VLAモデルの評価と進展のための大規模標準ベンチマークであるRoboMMEを紹介する。
論文 参考訳(メタデータ) (2026-03-04T21:59:32Z) - Memory Caching: RNNs with Growing Memory [56.25483647131372]
メモリ状態(隠された状態)のチェックポイントをキャッシュすることで、リカレントモデルを強化する技術であるメモリキャッシュ(MC)を導入する。
我々は,ゲートアグリゲーションとスパース選択機構を含むMCの4つの変種を提案し,それらが線形メモリモジュールおよび深部メモリモジュールに与える影響について議論する。
その結果,トランスフォーマーの精度は高いが,我々のMC変種は競争性能を示し,トランスフォーマーとのギャップを埋め,最先端のリカレントモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2026-02-27T18:53:41Z) - KEEP: A KV-Cache-Centric Memory Management System for Efficient Embodied Planning [8.216400469571084]
効率的な実施計画のためのKVキャッシュ型メモリ管理システムKEEPを提案する。
KEEPは,(1)混合粒度メモリグループによるKVキャッシュ再計算を低減する静的動的メモリ構築アルゴリズム,(2)異なるメモリグループ間の重要なクロスアテンションを動的に識別するマルチホップメモリ再計算アルゴリズム,(3)不均衡なKVキャッシュのロードと異なるレイヤ間のクロスアテンションを排除するレイヤバランスのメモリローディングという3つの重要なイノベーションを特徴としている。
論文 参考訳(メタデータ) (2026-02-27T01:48:07Z) - NextMem: Towards Latent Factual Memory for LLM-based Agents [58.35585202907478]
NextMemは、自動回帰型オートエンコーダを使用して、潜時メモリを効率的に構築する、潜時ファクトメモリフレームワークである。
大規模な実験は、NextMemが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-26T14:35:27Z) - Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning [38.78160379823724]
リカレントディープスVLA(Recurrent-Depth VLA)は、明示的なトークン生成ではなく、遅延反復精製による計算適応性を実現するアーキテクチャである。
RD-VLAは、メモリフットプリントが一定である任意の推論深度をサポートするリカレントで重み付けされたアクションヘッドを使用している。
論文 参考訳(メタデータ) (2026-02-08T07:21:01Z) - ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL [48.214881182054164]
本研究では,外部メモリを構造化したトランスアーキテクチャであるEMMURを提案する。
ELMURは、注意窓の向こうに10万倍の有効地平線を拡大する。
最大100万歩の廊下を持つ合成T-Mazeタスクで100%の成功率を達成する。
論文 参考訳(メタデータ) (2025-10-08T15:50:34Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。