論文の概要: WeaveLA: Event Driven Cross-Subtask Latent Memory Weaving for Repetitive Robot Manipulation
- arxiv url: http://arxiv.org/abs/2606.17463v1
- Date: Tue, 16 Jun 2026 03:25:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.242356
- Title: WeaveLA: Event Driven Cross-Subtask Latent Memory Weaving for Repetitive Robot Manipulation
- Title(参考訳): WeaveLA: 繰り返しロボット操作のためのイベント駆動型クロスサブタスク遅延メモリウィービング
- Authors: Shoujing Zhu, Zhenyang Liu, Fungmiu Wang, Jiafeng Wang, Bo Yue, Guiliang Liu, Simo Wu, Xiangyang Xue, Taiping Zeng,
- Abstract要約: VLA(Vision-Language-Action)ポリシーは、目覚ましいシングルステップ操作を実現しているが、各ステージが完了した時点では、正確には不安定である。
WeaveLAは、各セグメントを遅延トークンに圧縮するクロスサブタスクメモリインタフェースである。
- 参考スコア(独自算出の注目度): 32.02573096393062
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language-Action (VLA) policies have achieved remarkable single-step manipulation, yet they remain brittle precisely where each stage depends on what was just completed. The core issue is structural: short-window VLAs lack an explicit channel for rouxting information across sub-task boundaries, and existing memory-augmented variants either write at every frame, retrieve from demonstration-time stages, or fire at sub-goal events without performing an explicit sub-task-to-sub-task hand-off into the action expert. We identify the sub-goal completion event as the natural temporal unit for cross-subtask memory hand-off, and present WeaveLA (Weave Latent memory for Vision-Language-Action policies), a cross-subtask memory interface that, on top of a frozen VLA backbone, compresses each completed segment into latent tokens via query-driven attention pooling and routes them directly into the action-generation path of the next sub-task. This event-triggered, action-side design preserves the base policy's short-window interface while adding a lightweight cross-subtask channel. Through stratified evaluation on RoboMME with a $π_{0.5}$ backbone, WeaveLA's gains land exactly where the channel is needed: on the hardest repetition slice (SwingXtimes, $N{=}3$), success rises from $0\%$ to $47.8\%$, while single-execution episodes remain unchanged. Per-episode paired analysis confirms the gains are confined to tasks whose causal structure requires cross-subtask information.
- Abstract(参考訳): VLA(Vision-Language-Action)ポリシーは、目覚ましいシングルステップ操作を実現しているが、各ステージが完了した時点では、正確には不安定である。
ショートウィンドウのVLAはサブタスク境界を越えて情報をルーズするための明示的なチャネルがなく、既存のメモリ拡張版は各フレームに書き込むか、デモタイムステージから取り出すか、またはアクションエキスパートに明示的なサブタスクからサブタスクへのハンドオフを実行せずにサブゴールイベントで発火する。
サブゴール完了イベントを,クロスサブタスクメモリハンドオフの自然な時間単位として認識し,現在のWeaveLA(Weave Latent memory for Vision-Language-Action Policy)は,凍結したVLAバックボーン上に,各完了セグメントをクエリ駆動型アテンションプールを通じて遅延トークンに圧縮し,次のサブタスクのアクションジェネレーションパスに直接ルーティングする,クロスサブタスクメモリインターフェースである。
このイベントトリガー付きアクションサイド設計は、軽量なクロスサブタスクチャネルを追加しながら、基本ポリシーのショートウインドウインターフェースを保存する。
RoboMME の π_{0.5}$ のバックボーンによる階層化評価により、WeaveLA のゲインは、チャネルが必要な場所に正確に到達する: 最も厳しい繰り返しスライス (SwingXtimes, $N{=}3$) では、成功率は$0\% から$47.8\% に上昇するが、シングル実行エピソードは変わらない。
エピソード毎のペア分析により、利得はクロスサブタスク情報を必要とするタスクに限られていることを確認した。
関連論文リスト
- Retrieve, Don't Retrain: Extending Vision Language Action Models to New Tasks at Test Time [48.339524522652276]
Retrievalは、標準的なVLAポリシーを含む特定のバックボーンを超えてポリシーを改善するが、特にコスモスポリシーではその効果が顕著である。
PushTでは,クロス・エボディメントの一般化に先立って,検索が再利用可能なハイレベルな動きを未確認の目標角に対してどのように提供するか,RoboTwin 2.0ではクロス・エボディメントのベースラインを未確認のタスクで上回ります。
論文 参考訳(メタデータ) (2026-06-14T06:48:01Z) - SkiP: When to Skip and When to Refine for Efficient Robot Manipulation [50.03201984643502]
textbfSkip Policy (SkiP)は、スキップセグメントを動的に跳躍し、キーセグメントのアクションを集中的に洗練する。
emphMotion Spectrum Keying (MSK) は、動作信号から局所的な動きの複雑さを検出する高速でタスクに依存しない手順である。
実験によると、SkiPは実行ステップを15ドルから40%ほど削減し、さまざまなポリシーバックボーン間での成功率のマッチングや改善を実現している。
論文 参考訳(メタデータ) (2026-05-15T02:16:34Z) - CORAL: Scalable Multi-Task Robot Learning via LoRA Experts [49.759823970016974]
実世界のロボット工学におけるビジョン・ランゲージ・アクション(VLA)モデルは、コアマルチタスク学習の課題を露呈する。
タスク毎に個別の完全なチェックポイントを維持することは、しばしばストレージとデプロイメントの禁止である。
主にマルチタスク干渉を軽減するために設計されたバックボーンおよび非依存のフレームワークであるCORALを提案する。
論文 参考訳(メタデータ) (2026-03-10T07:28:41Z) - Notes-to-Self: Scratchpad Augmented VLAs for Memory Dependent Manipulation Tasks [9.55115186979077]
言語スクラッチパッドを組み込むことにより,空間記憶と時間記憶の両方を視覚言語アクション(VLA)モデルに付与する方法を示す。
本手法は,ClevrSkills環境からのメモリ依存タスクの分割,MemoryBench上でのメモリ依存タスク,そして実世界のピック・アンド・プレイスタスクにおいて評価する。
論文 参考訳(メタデータ) (2026-02-24T15:30:55Z) - RoboSubtaskNet: Temporal Sub-task Segmentation for Human-to-Robot Skill Transfer in Real-World Environments [14.919366180093363]
人間とロボットのコラボレーションを安全にするためには、細かなサブタスクのセグメントを、長い、トリミングされていないビデオで一時的に見つけて分類することが不可欠だ。
本稿では,マルチステージのヒューマン・ロボット・サブタスクセグメンテーションフレームワークであるRoboSubtaskNetを紹介する。
また、サブタスクレベルで注釈付けされた医療および産業デモのデータセットであるRoboSubtaskを紹介します。
論文 参考訳(メタデータ) (2026-02-10T17:37:35Z) - PECTP: Parameter-Efficient Cross-Task Prompts for Incremental Vision Transformer [76.39111896665585]
インクリメンタルラーニング(IL)は、シーケンシャルタスクの深いモデルを継続的に学習することを目的としている。
近年の大規模事前訓練モデル (PTM) は, 従来の試料を含まない実用ILにおいて, 即時的手法により優れた性能を発揮している。
論文 参考訳(メタデータ) (2024-07-04T10:37:58Z) - SMAUG: A Sliding Multidimensional Task Window-Based MARL Framework for
Adaptive Real-Time Subtask Recognition [11.236363226878975]
サブタスクベースのマルチエージェント強化学習(MARL)手法により、エージェントは異なるサブタスクに対処する方法を学ぶことができる。
textbfSliding textbfMultidimensional ttextbfAsk window based mtextbfUti-agent reinforcement learnintextbfG framework (SMAUG) を提案する。
StarCraft IIの実験では、SMAUGはすべてのベースラインと比較してパフォーマンス上の優位性を示すだけでなく、より顕著で迅速な報酬の上昇を示す。
論文 参考訳(メタデータ) (2024-03-04T08:04:41Z) - End-to-end Temporal Action Detection with Transformer [86.80289146697788]
時間的アクション検出(TAD)は、トリミングされていないビデオにおいて、すべてのアクションインスタンスのセマンティックラベルとバウンダリを決定することを目的としている。
そこで我々は,textitTadTR と呼ばれる Transformer によるTAD のエンドツーエンドフレームワークを構築した。
本手法は,HACSセグメンツとTHUMOS14の最先端性能とActivityNet-1.3の競合性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T17:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。