論文の概要: FARM: Find Anything using Relational Spatial Memory
- arxiv url: http://arxiv.org/abs/2606.15476v2
- Date: Fri, 19 Jun 2026 00:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-23 13:41:30.740926
- Title: FARM: Find Anything using Relational Spatial Memory
- Title(参考訳): FARM:リレーショナル空間記憶を用いて何かを見つける
- Authors: Siming He, Leo Huang, Adam Lilja, Fabio Hubel, Jonas Frey, Marco Pavone, S. Shankar Sastry, Jitendra Malik, Claire Tomlin,
- Abstract要約: FARMは、コンパクトでオープンな語彙、幾何学、視覚ペダル記述子、視点エビデンスを備えたオブジェクトレベルのメモリを構築している。
クエリを解析し、視覚的エビデンスをスコアし、オブジェクトシンボルや述語を通じて空間的制約を明確にグラウンド化する。
67のシーンにまたがる44kの言語クエリの実験では、FARMは164%と224%の事前メソッドよりもRecall@5とRecall@10を改善し、最終的なVLMリグレードステージでは、リアルタイムで実行しながら、Accuracy@1を35%改善した。
- 参考スコア(独自算出の注目度): 44.11974651897165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robots operating in homes, warehouses, and other object-rich environments need memory systems that can find specific object instances on demand. Object-level memory alone is often insufficient: scenes contain many plausibly matching objects, and users refer to the target through relations to landmarks and surrounding objects (e.g. ``the tall lamp below the dartboard and to the left of the poster''), demanding a relational spatial memory that supports retrieval through semantic, appearance, and spatial predicates over objects. To achieve this, we present FARM (Find Anything using Relational Spatial Memory), which builds, in real time at 5-10 Hz, a compact, open-vocabulary, object-level memory with geometry, visual-language descriptors, and viewpoint evidence. At query time, FARM uses VLMs to parse the query and score visual evidence, while grounding spatial constraints explicitly through object symbols and relational predicates. This structured use of VLMs enables more accurate and robust retrieval than end-to-end reasoning over frame histories or scene-graph context. In experiments on 44k language queries spanning 67 indoor and outdoor scenes, ranging from 15 to 15,000 m^2, FARM improves Recall@5 and Recall@10 over prior methods by 164% and 224%, and a final VLM reranking stage improves Accuracy@1 by 35%, while running in real time. We further demonstrate closed-loop deployment on a quadrupedal robot using onboard sensors and compute.
- Abstract(参考訳): 家や倉庫などで動くロボットは、要求に応じて特定のオブジェクトインスタンスを見つけることができるメモリシステムを必要とする。
ランドマークや周囲のオブジェクト(例えば『ダーツボードの下とポスターの左側の背の高いランプ』)との関係を通して、ユーザーはオブジェクトのセマンティック、外観、空間的述語による検索をサポートするリレーショナル空間記憶を要求する。
これを実現するために、FARM(Find Anything using Relational Spatial Memory)を5-10Hzでリアルタイムに構築し、コンパクトでオープンな語彙、形状を持つオブジェクトレベルのメモリ、視覚言語記述子、視点証拠を提示する。
クエリ時に、FARMはVLMを使用してクエリを解析し、視覚的エビデンスを評価する。
この構造化されたVLMの使用により、フレーム履歴やシーングラフのコンテキストに対するエンドツーエンドの推論よりも正確で堅牢な検索が可能になる。
屋内と屋外の67のシーンにわたる44kの言語クエリの実験では、15から15,000m^2の範囲で、FARMは以前のメソッドよりもRecall@5とRecall@10を164%、224%改善し、最終的なVLMリグレードステージでは、リアルタイムに実行しながら、Accuracy@1を35%改善した。
さらに、オンボードセンサーと計算を用いた四足歩行ロボットのクローズドループ展開を実証した。
関連論文リスト
- Reasmory: 3D Reconstruction as Explicit Memory for VLMs Spatial Reasoning [43.950190960277865]
VLM(Vision-Language Models)は、空間的推論能力の出現を示すが、正確な空間的理解を必要とするタスクには信頼できない。
再構成空間メモリ上での構造化プログラム実行として空間推論を定式化するフレームワークであるtextbfReasmoryを提案する。
Reasmoryは明示的な3Dメモリを構築し、セマンティックな3Dオブジェクトインスタンスで拡張し、軽量なDomain-Specific Languageを導入している。
論文 参考訳(メタデータ) (2026-05-31T02:36:57Z) - LMEB: Long-horizon Memory Embedding Benchmark [49.57481835614834]
埋め込みモデルの能力を評価する包括的なフレームワークであるLong-Horizon Memory Embedding Benchmark (LMEB)を紹介する。
LMEBは4つのメモリタイプにまたがる22のデータセットと193のゼロショット検索タスクにまたがる。
我々は、数億から100億のパラメータを含む、広く使われている15の埋め込みモデルを評価した。
論文 参考訳(メタデータ) (2026-03-13T02:09:57Z) - RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies [54.23445842621374]
記憶は、長い水平と歴史に依存したロボット操作にとって重要である。
近年,視覚言語アクション(VLA)モデルにメモリ機構が組み込まれ始めている。
本稿では,VLAモデルの評価と進展のための大規模標準ベンチマークであるRoboMMEを紹介する。
論文 参考訳(メタデータ) (2026-03-04T21:59:32Z) - STaR: Scalable Task-Conditioned Retrieval for Long-Horizon Multimodal Robot Memory [16.76678779219906]
移動ロボットは、様々なオープンでダイナミックなシーンで長時間展開されることが多い。
主な課題は、計画、検索、推論のためのエージェントワークフローをサポートするスケーラブルなロングホライゾンメモリを構築することである。
本稿では,タスクに依存しないマルチモーダル長期メモリSTaRを提案する。
論文 参考訳(メタデータ) (2026-02-09T22:38:53Z) - EMemBench: Interactive Benchmarking of Episodic Memory for VLM Agents [52.567469286881426]
本稿では,対話型ゲームによるエージェントの長期記憶評価のためのプログラムベンチマークEMemBenchを紹介する。
固定された質問セットを使う代わりに、EMemBenchは各エージェント自身の軌道から質問を生成する。
各テンプレートは、下層のゲーム信号から検証済みの真理を計算する。
論文 参考訳(メタデータ) (2026-01-23T12:09:59Z) - Meta-Memory: Retrieving and Integrating Semantic-Spatial Memories for Robot Spatial Reasoning [5.740131013400576]
本稿では,環境の高密度メモリ表現を構築する,大規模言語モデル(LLM)駆動エージェントであるMeta-Memoryを提案する。
メタメモリの重要な革新は、意味論と空間的モダリティに関する共同推論を通じて関連する記憶を検索し、統合する能力にある。
実験の結果、Meta-MemoryはSpaceLocQAとパブリックなNaVQAベンチマークの両方で最先端の手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-09-25T05:22:52Z) - SpaRE: Enhancing Spatial Reasoning in Vision-Language Models with Synthetic Data [7.142118464319378]
視覚言語モデル(VLM)は、画像キャプションから視覚質問応答(VQA)までのタスクでうまく機能する。
空間関係は一般的に広く使われているVLデータセットではまれであり、よく表現されているものはほとんどない。
我々は,超詳細な画像記述から生成された空間的推論に着目した合成VQAデータセットを構築した。
論文 参考訳(メタデータ) (2025-04-29T11:18:38Z) - Online Episodic Memory Visual Query Localization with Egocentric Streaming Object Memory [17.305576093380168]
モデルがオンラインストリームを処理するタスクであるVisual Online 2D(OVQ2D)を導入し、各フレームを一度だけ観察し、完全なビデオ履歴ではなく、コンパクトなメモリを用いてオブジェクトのローカライゼーションを検索する。
他のオンラインアプローチよりもESOMビデオの方が優れていることを実証していますが、OVQ2Dは依然として挑戦的であり、最高のパフォーマンスはわずか4%の成功です。
論文 参考訳(メタデータ) (2024-11-25T21:07:25Z) - ROOT: VLM based System for Indoor Scene Understanding and Beyond [83.71252153660078]
ROOTは、室内シーンの分析を強化するために設計されたVLMベースのシステムである。
rootnameは、屋内シーンの理解を促進し、3Dシーン生成や組み込みAIなど、さまざまな下流アプリケーションに有効であることを証明します。
論文 参考訳(メタデータ) (2024-11-24T04:51:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。