論文の概要: EventVLA: Event-Driven Visual Evidence Memory for Long-Horizon Vision-Language-Action Policies
- arxiv url: http://arxiv.org/abs/2606.20092v1
- Date: Thu, 18 Jun 2026 11:11:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.812635
- Title: EventVLA: Event-Driven Visual Evidence Memory for Long-Horizon Vision-Language-Action Policies
- Title(参考訳): EventVLA: 長距離ビジョンランゲージ・アクションポリシーのためのイベント駆動型ビジュアルエビデンスメモリ
- Authors: Ganlin Yang, Zhangzheng Tu, Yuqiang Yang, Sitong Mao, Junyi Dong, Tianxing Chen, Jiaqi Peng, Jing Xiong, Jiafei Cao, Jifeng Dai, Wengang Zhou, Yao Mu, Tai Wang,
- Abstract要約: EventVLAは、疎視的エビデンスメモリの概念に基づいて開発されたエンドツーエンドフレームワークである。
KEMは、VLAの潜伏した埋め込みから将来の確率を直接予測し、スパースでタスククリティカルな視覚イベントを自律的にキャプチャして保存する。
対話型視覚的エビデンスで非マルコフ操作タスクを評価するための診断ベンチマークであるRoboTwin-MeMを提案する。
- 参考スコア(独自算出の注目度): 68.812675280427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Memory remains a critical bottleneck for long-horizon robotic manipulation, as standard Vision-Language-Action (VLA) policies often fail when task-relevant cues become occluded or unobservable over time. While existing memory-augmented methods utilize historical context, they either suffer from severe information bottlenecks, incur high latency via decoupled dual systems, or rely on unselective buffers that accumulate massive visual redundancies. To address these limitations, we introduce EventVLA, an end-to-end framework founded on the concept of sparse visual evidence memory that comprises two core components: foundational visual anchors to retain initial and short-term contexts, and a dynamic Keyframe Evidence Memory (KEM) module. Specifically, KEM directly predicts future keyframe probabilities from the VLA's latent embeddings to autonomously capture and store sparse, task-critical visual events. This foresight-driven mechanism empowers the policy to dynamically evaluate the future causal utility of current observations, preserving transient visual evidence before it becomes unobservable. Furthermore, we propose RoboTwin-MeM, a diagnostic benchmark specifically designed to evaluate non-Markovian manipulation tasks with interactive visual evidence. Extensive evaluations show that across 17 memory-requiring simulation tasks and 4 real-world bimanual tasks, EventVLA achieves an average success rate improvement of +40% over state-of-the-art memory-augmented VLAs.
- Abstract(参考訳): VLA(Vision-Language-Action)ポリシーは、タスク関連キューが時間が経つにつれて無視されるか、観測不能になる場合が多いため、長期にわたるロボット操作においてメモリは依然として重要なボトルネックとなっている。
既存のメモリ拡張方式は歴史的コンテキストを利用するが、深刻な情報ボトルネックに悩まされるか、分離されたデュアルシステムを介して高いレイテンシーを発生させるか、巨大な視覚的冗長性を蓄積する非選択バッファに依存するかのいずれかである。
これらの制限に対処するため、EventVLAはスパースな視覚的エビデンスメモリの概念に基づいて構築されたエンドツーエンドフレームワークであり、初期および短期のコンテキストを維持するための基本的な視覚的アンカーと、動的キーフレームエビデンスメモリ(KEM)モジュールである。
具体的には、KEMはVLAの潜伏した埋め込みから、疎結合でタスククリティカルな視覚イベントを自律的にキャプチャして保存する将来のキーフレーム確率を直接予測する。
このフォレスト駆動機構により、現在の観測の今後の因果的有用性を動的に評価し、観察不能になる前に過渡的な視覚的証拠を保存することができる。
さらに,対話型視覚的エビデンスを用いた非マルコフ操作タスクの評価に特化して設計された診断ベンチマークであるRoboTwin-MeMを提案する。
大規模な評価では、17のメモリ要求シミュレーションタスクと4つの実世界のバイマニュアルタスクにまたがって、EventVLAは、最先端のメモリ拡張VLAよりも平均成功率を+40%向上させる。
関連論文リスト
- VisualThink-VLA: Visual Intermediate Reasoning for Effective and Low-Latency Vision-Language-Action Policies [58.65913948991329]
正確な低レイテンシVLAポリシーのためのビジュアル中間推論フレームワークであるVISUALTHINK-VLAを提案する。
私たちのブートストラップ哲学は、効果的な視覚的思考でアクションを導くことです。
これは、デコードオーバーヘッドを回避しながら空間的精度を保った、コンパクトなビジュアル・エビデンスインターフェースを通じてアクション予測をブートストラップする。
論文 参考訳(メタデータ) (2026-05-28T14:36:53Z) - Spatial Memory for Out-of-Vision Manipulation in Vision-Language-Action [33.511005694762126]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルにおける視覚外操作のための空間記憶フレームワークであるSOMAを紹介する。
このフレームワークは、空間記憶構成、動的記憶再構成、コンテキスト記憶検索の3つのコンポーネントで構成されている。
我々はSOMAをマルチステップとデュアルアームのシナリオを含む5つの現実的外界操作タスクで評価する。
論文 参考訳(メタデータ) (2026-05-21T10:32:53Z) - ReMem-VLA: Empowering Vision-Language-Action Model with Memory via Dual-Level Recurrent Queries [45.23935281952228]
本稿では、2組の学習可能なクエリを備えた視覚言語アクション(VLA)モデルであるReMem-VLAを紹介する。
これらのクエリはエンドツーエンドでトレーニングされ、時間とともに関連するコンテキストを集約し、維持する。
ReMem-VLAは複数の次元にまたがる強力なメモリ能力を示す。
論文 参考訳(メタデータ) (2026-03-13T12:38:42Z) - RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies [54.23445842621374]
記憶は、長い水平と歴史に依存したロボット操作にとって重要である。
近年,視覚言語アクション(VLA)モデルにメモリ機構が組み込まれ始めている。
本稿では,VLAモデルの評価と進展のための大規模標準ベンチマークであるRoboMMEを紹介する。
論文 参考訳(メタデータ) (2026-03-04T21:59:32Z) - CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。
CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。
これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.18498389833308]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文 参考訳(メタデータ) (2025-06-18T17:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。