論文の概要: RAVEN: Long-Horizon Reasoning & Navigation with a Visuo-Spatio-Temporal Memory
- arxiv url: http://arxiv.org/abs/2606.25206v1
- Date: Tue, 23 Jun 2026 21:56:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.160844
- Title: RAVEN: Long-Horizon Reasoning & Navigation with a Visuo-Spatio-Temporal Memory
- Title(参考訳): RAVEN: Visuo-Spatio-Temporal Memory を用いたロングホライゾン推論とナビゲーション
- Authors: Yixun Hu, Zhicheng Zheng, Lihan Zha, Chunwei Xing, Rajdeep Singh, Omar Hossain, Antonio Loquercio, Dhruv Shah,
- Abstract要約: RAVENは、長距離ロボットによる質問応答とナビゲーションのためのエージェントメモリシステムである。
RAVENは、ベクトルデータベースにポーズと時間で視覚的な埋め込みを格納し、検索を空間マップに置き、クエリに応答する。
我々は、自然言語のゴール取得のための長距離ナビゲーションを行うために、Unitree Go1ロボット上でRAVENをインスタンス化する。
- 参考スコア(独自算出の注目度): 10.92726806758712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-term robot deployment requires a compact and scalable memory that preserves fine-grained visual semantics, grounds observations in space and time, and enables efficient storage and retrieval. In this paper, we propose RAVEN, an agentic memory system for long-horizon robotic question answering and navigation. RAVEN stores visual embeddings with pose and time in a vector database, and grounds retrieval in a spatial map to answer queries and navigate to goals. By operating directly on visual embeddings, RAVEN avoids lossy image-to-text captioning and enables accurate semantic, spatial, and temporal retrieval at scale. Across several simulated and real-world video question-answering benchmarks, RAVEN consistently surpasses caption-based memory systems and matches frontier VLMs on long-horizon tasks at 10$\times$ lower retrieval cost. Finally, we instantiate RAVEN on a Unitree Go1 robot for the task of long-horizon navigation for natural language goal-reaching, and show successful deployment over several large indoor environments.
- Abstract(参考訳): ロボットの長期展開にはコンパクトでスケーラブルなメモリが必要で、細かな視覚的セマンティクスを保存し、空間と時間の観察を基盤とし、効率的なストレージと検索を可能にする。
本稿では,長距離ロボット問合せとナビゲーションのためのエージェントメモリシステムであるRAVENを提案する。
RAVENは、ベクトルデータベースにポーズと時間で視覚的な埋め込みを格納し、検索を空間マップに置き、クエリに応答し、目標に向かってナビゲートする。
視覚的な埋め込みを直接操作することで、RAVENは画像からテキストへのキャプションの損失を回避し、正確な意味、空間、時間的検索を可能にする。
RAVENは、複数のシミュレーションされた実世界のビデオ質問応答ベンチマークの中で、キャプションベースのメモリシステムを超え、長い水平タスク上のフロンティアVLMを10$\times$低い検索コストで一致させる。
最後に,Unitree Go1ロボット上でRAVENをインスタンス化して,自然言語の目標到達のための長距離ナビゲーションを行い,屋内の大規模環境への展開に成功していることを示す。
関連論文リスト
- LongSpace: Exploring Long-Horizon Spatial Memory from Perception to Recall in Video [20.1389583507481]
自律走行やロボットナビゲーションのような長距離作業は、現在の視点を認識する以上のものを必要とします。
長距離空間記憶のためのルームツーリングビデオベンチマークであるLongSpaceを紹介する。
LongSpaceは、長いビデオをシーケンシャルなチャンクとしてモデル化し、3D構造的キューを初期のデコーダ層に組み込み、質問誘導検索のためのレイヤ対応メモリを構築する。
論文 参考訳(メタデータ) (2026-06-04T04:00:12Z) - EvoMemNav: Efficient Self-Evolving Fine-Grained Memory for Zero-Shot Embodied Navigation [81.54723508469617]
EvoMemNavは、ゼロショットエンボディナビゲーションのための効率的で自己進化的できめ細かいメモリフレームワークである。
VSMGraphは、セマンティックキューとトポロジ的関係を持つビューをルームビューオブジェクト階層に整理する。
GOAT-BenchとHM3Dのオブジェクト、テキスト記述、画像ゴールのモダリティによる実験は、SR/SPLにおいて一貫した利得を示している。
論文 参考訳(メタデータ) (2026-06-02T11:27:44Z) - RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies [54.23445842621374]
記憶は、長い水平と歴史に依存したロボット操作にとって重要である。
近年,視覚言語アクション(VLA)モデルにメモリ機構が組み込まれ始めている。
本稿では,VLAモデルの評価と進展のための大規模標準ベンチマークであるRoboMMEを紹介する。
論文 参考訳(メタデータ) (2026-03-04T21:59:32Z) - STaR: Scalable Task-Conditioned Retrieval for Long-Horizon Multimodal Robot Memory [16.76678779219906]
移動ロボットは、様々なオープンでダイナミックなシーンで長時間展開されることが多い。
主な課題は、計画、検索、推論のためのエージェントワークフローをサポートするスケーラブルなロングホライゾンメモリを構築することである。
本稿では,タスクに依存しないマルチモーダル長期メモリSTaRを提案する。
論文 参考訳(メタデータ) (2026-02-09T22:38:53Z) - ImagineNav++: Prompting Vision-Language Models as Embodied Navigator through Scene Imagination [36.489349671649045]
VLM(Vision-Language Models)は、オンボードのRGB/RGB-Dストリームのみを使用してマップレスなビジュアルナビゲーションを実現し、空間的な知覚と計画の可能性を解き放つ。
我々はこれを、想像力によるナビゲーションフレームワークImagineNav++で実現している。
空間的整合性を維持するため,スパース・トゥ・デンス・フレームワークによる観測を階層的に統合する選択的葉形成記憶機構を開発した。
論文 参考訳(メタデータ) (2025-12-19T10:40:16Z) - 3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning [65.40458559619303]
エンボディエージェントのための新しい3Dシーンメモリフレームワークである3D-Memを提案する。
3D-Memは、シーンを表現するために、Memory Snapshotsと呼ばれる情報的なマルチビューイメージを使用している。
さらに、Frontier Snapshots-glimpsの未探索領域対応エージェントを導入して、情報的な意思決定を行うことによって、フロンティアベースの探索をさらに統合する。
論文 参考訳(メタデータ) (2024-11-23T09:57:43Z) - ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation [9.468486766002625]
ロボットと対話する人々は、それがいつ起きたのか、どれくらい昔に起きたのかといった質問をしたいかもしれない。
本稿では,ロボットナビゲーションのための長時間ビデオ質問応答システムであるReMEmbRを紹介する。
我々の実験により、ReMEmbRはLLMとVLMのベースラインよりも優れており、低レイテンシで効率的な長距離推論を実現することができることが示された。
論文 参考訳(メタデータ) (2024-09-20T17:50:07Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。