論文の概要: Memory Retrieval in Visuomotor Policies for Long-Horizon Robot Control
- arxiv url: http://arxiv.org/abs/2606.25136v1
- Date: Tue, 23 Jun 2026 20:07:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.135936
- Title: Memory Retrieval in Visuomotor Policies for Long-Horizon Robot Control
- Title(参考訳): 長軸ロボット制御のためのビジュモータ法における記憶検索
- Authors: Rutav Shah, Yisu Li, Femi Bello, Yuke Zhu, Roberto Martín-Martín,
- Abstract要約: 家庭などの部分的に観測可能な環境で動く汎用ロボットは、自律性をサポートするために記憶を必要とする。
本稿では,長期制御のための注意に基づくメモリ検索機構を備えたビジュモータポリシーであるHALOを紹介する。
- 参考スコア(独自算出の注目度): 33.5619212312672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General-purpose robots operating in partially observable environments, such as homes, require memory to support autonomy. They must recall diverse information from the past, such as where objects were placed, which tasks a human partner has completed, and when an appliance was turned on. Achieving this versatility requires a general memory retrieval mechanism. Transformer architectures that use attention over long contexts for memory retrieval provide a promising approach, as they learn retrieval from data rather than relying on task-specific or hand-designed rules. However, directly incorporating them into imitation learning from offline data introduces two key challenges: (1) the policy may learn spurious correlations between past information and predicted actions, and (2) errors accumulate in memory due to prediction inaccuracies and their compounding interactions with the environment, causing model drift and cascading failures. To address both challenges, we introduce HALO, a visuomotor policy with an attention-based memory retrieval mechanism for long-horizon control. First, to suppress spurious correlations, HALO distills vision-language model (VLM) priors into the policy. It generates memory-dependent question--answer pairs from demonstration trajectories and trains jointly with a video question--answering objective, steering retrieval toward task-relevant information. Second, to reduce the impact of accumulated errors in memory during closed-loop control, HALO uses sparse attention that restricts retrieval to only the most relevant parts of the history. Together, these components enable more reliable long-horizon control by guiding the policy to retrieve task-relevant information from up to eight minutes of past experience. Project website: https://robin-lab.cs.utexas.edu/HALO
- Abstract(参考訳): 家庭などの部分的に観測可能な環境で動く汎用ロボットは、自律性をサポートするために記憶を必要とする。
それらは、オブジェクトがどこに置かれているか、人間のパートナーが完了したタスク、アプライアンスがオンになったときなど、過去のさまざまな情報を思い出さなければならない。
この汎用性を達成するには、一般的なメモリ検索機構が必要である。
長期にわたるメモリ検索に注意を払っているトランスフォーマーアーキテクチャは、タスク固有のルールや手設計のルールに頼るのではなく、データから検索を学ぶという、有望なアプローチを提供する。
しかし, オフラインデータからの模倣学習に直接組み込むことは, 1) 過去の情報と予測行動との間の素早い相関関係を学習し, (2) 予測不正確性や環境との複合的相互作用による記憶に蓄積されたエラーをモデルドリフトやカスケード障害の原因とする2つの重要な課題をもたらす。
両課題に対処するために,長軸制御のための注意に基づくメモリ検索機構を備えたビジュモータポリシーであるHALOを導入する。
まず,突発的な相関を抑えるために,HALOは視覚言語モデル(VLM)をそのポリシーに導入する。
デモトラジェクトリからメモリ依存の質問対を生成し、ビデオ質問対象と共同で訓練し、タスク関連情報に対する検索を操る。
第二に、閉ループ制御におけるメモリの蓄積エラーの影響を低減するため、HALOは、検索を履歴の最も関連性の高い部分のみに制限するスパースアテンションを使用する。
これらのコンポーネントは、過去の経験から最大8分間のタスク関連情報を検索するためのポリシーを導くことで、より信頼性の高いロングホライゾン制御を可能にする。
プロジェクトウェブサイト:https://robin-lab.cs.utexas.edu/HALO
関連論文リスト
- Scaling Short-Term Memory of Visuomotor Policies for Long-Horizon Tasks [69.19366746169906]
本稿では,短期記憶を利用するビジュモータポリシーのためのトランスフォーマーベースのアーキテクチャであるPRISMを提案する。
海賊フィルタは情報を取得し、関連する詳細を抑え、性能を向上する。
階層アーキテクチャは、ローカル情報をコンパクトなトークンに圧縮し、計算とメモリフットプリントを改善する。
論文 参考訳(メタデータ) (2026-06-15T03:49:23Z) - SAM: State-Adaptive Memory for Long-Horizon Reasoning Agent [51.274445160155864]
ロングホライゾンのエージェント推論は、思考、ツールコール、観察、部分的な結論を含む長い相互作用履歴を通して行動するために大きな言語モデルを必要とする。
既存のアプローチでは、インタラクション履歴の切り抜き、短いサロゲートに圧縮、あるいは再利用のために選択した部分を取得することで、この問題に対処している。
我々は、インテント駆動リコールのための生のトラジェクトリページを保持しながら、継続的なインタラクションをコンパクトなメモリキューに統合するスタンドアロンフレームワークであるState-Adaptive Memoryを提案する。
論文 参考訳(メタデータ) (2026-05-23T08:37:16Z) - MINTEval: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems [69.06764269022925]
本研究では,現在の記憶増強剤が現実的,干渉重大,長期的設定において果たす役割について検討する。
MINTEvalは、頻繁に更新される情報を備えた、長く高度に相互接続されたコンテキストを特徴とするベンチマークである。
MINTEvalは128.8kのトークンを平均で1インスタンスあたり1.8Mのトークンに拡張し、15.6kの質問応答ペアを持つ。
論文 参考訳(メタデータ) (2026-05-18T15:43:35Z) - RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies [54.23445842621374]
記憶は、長い水平と歴史に依存したロボット操作にとって重要である。
近年,視覚言語アクション(VLA)モデルにメモリ機構が組み込まれ始めている。
本稿では,VLAモデルの評価と進展のための大規模標準ベンチマークであるRoboMMEを紹介する。
論文 参考訳(メタデータ) (2026-03-04T21:59:32Z) - AMA: Adaptive Memory via Multi-Agent Collaboration [54.490349689939166]
複数の粒度にまたがるメモリ管理に協調エージェントを活用する新しいフレームワークであるAMA(Adaptive Memory via Multi-Agent Collaboration)を提案する。
AMAは、ステート・オブ・ザ・アートのベースラインを著しく上回り、トークンの消費をフルコンテキストの手法と比べて約80%削減する。
論文 参考訳(メタデータ) (2026-01-28T08:09:49Z) - HiMeS: Hippocampus-inspired Memory System for Personalized AI Assistants [7.477189210398971]
短期記憶と長期記憶を融合したAI補助アーキテクチャであるHiMeSを提案する。
短期記憶と長期記憶を融合したAI補助アーキテクチャであるHiMeSを提案する。
論文 参考訳(メタデータ) (2026-01-06T05:05:50Z) - Rethinking Progression of Memory State in Robotic Manipulation: An Object-Centric Perspective [16.541717037293278]
物体レベルの部分観測性の下でのストレステストロボット操作のための非マルコフタスクスイートであるLIBERO-Memを紹介する。
短軸と長軸の物体追跡と時間的に順序付けられたサブゴールを組み合わせ、現在のフレームを超えて推論を必要とする。
Embodied-SlotSSMは時間的拡張性のために構築されたスロット中心のVLAフレームワークである。
論文 参考訳(メタデータ) (2025-11-14T16:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。