論文の概要: Binary Tracking for Spatial QA and Navigation with Open Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.16902v1
- Date: Mon, 15 Jun 2026 16:10:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.755139
- Title: Binary Tracking for Spatial QA and Navigation with Open Vision-Language Models
- Title(参考訳): オープンビジョン言語モデルを用いた空間的QAとナビゲーションのためのバイナリトラッキング
- Authors: Dongbin Na, Chanwoo Kim, Soonbin Rho, Giyun Choi, Gangbok Lee, Dooyoung Hong,
- Abstract要約: この研究は、長い自我中心のルートを横断するサービスロボットに対する空間的質問応答に対処する。
家に帰る途中でドライクリーナーがどこにあるのか?」というようなクエリが与えられたら、システムは下流のナビゲーションコンポーネントが動作可能なメトリクス座標を返す。
この研究は、ロボットの軌道の時間的順序付けを利用する、シンプルで効果的で完全にオープンソースな空間局在化エージェントであるBinTrackを提案する。
- 参考スコア(独自算出の注目度): 9.939339867991555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work addresses spatial question answering for service robots traversing long egocentric routes. Given a query such as "where can I find a dry cleaner on the way back home?", the system returns a metric coordinate that downstream navigation components can act on. Prior Spatial Question Answering approaches leverage retrieval-augmented agents built on closed-source models such as GPT-4o for path exploration. However, robots operating in the real world often cannot reliably depend on online closed-source models due to network instability, communication latency, and deployment cost. It creates a need for open-source based Spatial Question Answering approaches that can run onboard the robot, yet prior research in this direction remains limited. This work proposes BinTrack, a simple yet effective, fully open-source spatial-localization agent that leverages the temporal ordering of a robot's trajectory. BinTrack performs a binary search over the trajectory segments between two anchor landmarks identified from a query. It improves overall accuracy by up to 22.8% over other open-source implementations and even matches the reported closed-source model result on the global category of the SpaceLocQA benchmark, the most challenging setting that has so far required strong reasoning agents such as GPT-4o. Furthermore, its optimized inference strategy consistently yields more than a 1.5x inference speedup over previous approaches. Finally, this work releases GangnamLoop, a novel and practical multi-trip outdoor benchmark collected by deploying a real quadruped robot on public streets with the anonymization policy. It revisits the same locations under different outdoor conditions and pairs the robot's low viewpoint with the human owner's. The source codes and datasets are publicly available at https://github.com/ndb796/BinaryTracking
- Abstract(参考訳): この研究は、長い自我中心のルートを横断するサービスロボットに対する空間的質問応答に対処する。
家に帰る途中でドライクリーナーがどこにあるのか?」というようなクエリが与えられたら、システムは下流のナビゲーションコンポーネントが動作可能なメトリクス座標を返す。
従来の空間質問応答アプローチでは、GPT-4oのようなクローズドソースモデル上に構築された検索拡張エージェントを経路探索に利用している。
しかし,ネットワークの不安定性,通信遅延,デプロイメントコストなどの理由から,実世界のロボットは,オンラインクローズドソースモデルに確実に依存できないことが多い。
オープンソースのSpatial Question Answeringアプローチは、ロボットで動かせるが、それ以前の研究は限られていた。
この研究は、ロボットの軌道の時間的順序付けを利用する、シンプルで効果的で完全にオープンソースな空間局在化エージェントであるBinTrackを提案する。
BinTrackは、クエリから識別された2つのアンカーランドマーク間の軌跡セグメントをバイナリ検索する。
他のオープンソース実装と比較して、全体的な精度を最大22.8%向上させ、報告されたクローズドソースモデルの結果をSpaceLocQAベンチマークのグローバルカテゴリにマッチさせる。
さらに、最適化された推論戦略は、以前のアプローチよりも1.5倍以上の推論スピードアップをもたらす。
最後に、この研究はGangnamLoopを公開している。GangnamLoopは、匿名化ポリシーで、実際の四足歩行ロボットを公道に展開することによって収集された、新しく実用的なマルチトリップ屋外ベンチマークだ。
異なる屋外条件下で同じ場所を見直し、ロボットの低い視点と人間の所有者の視点を合わせる。
ソースコードとデータセットはhttps://github.com/ndb796/BinaryTrackingで公開されている。
関連論文リスト
- G-DRAGON: Geospatial Reasoning and Dynamic Planning for Retrieval-Augmented Outdoor Navigation [8.375852792481576]
G-DRAGONは、屋外のオープンワールドナビゲーションのための検索拡張フレームワークである。
軽量LLMに基づく生成検索により、自然言語コマンドをバージョン管理されたローカルOSMエンティティにマッピングする。
高レベルの計画モジュールは、SLAMシステムでグローバルなトポロジカルなルートをブリッジし、地理空間的な経路をロボットのナビゲート可能なフレームに投影する。
論文 参考訳(メタデータ) (2026-05-25T09:52:58Z) - RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics [67.11221574129937]
空間参照は、3D物理世界と相互作用するエンボディロボットの基本的な能力である。
本稿では,まず空間的理解を正確に行うことのできる3次元VLMであるRoboReferを提案する。
RoboReferは、強化微調整による一般化された多段階空間推論を推進している。
論文 参考訳(メタデータ) (2025-06-04T17:59:27Z) - SCoTT: Strategic Chain-of-Thought Tasking for Wireless-Aware Robot Navigation in Digital Twins [78.53885607559958]
無線対応経路計画フレームワークであるSCoTTを提案する。
SCoTT は DP-WA* の2% 以内で経路ゲインを達成し, 連続的に短い軌道を生成できることを示す。
また,ガゼボシミュレーションにおいて,SCoTTをROSノードとして配置することにより,本手法の実用性を示す。
論文 参考訳(メタデータ) (2024-11-27T10:45:49Z) - Online Concurrent Multi-Robot Coverage Path Planning [5.801044612920816]
地平線では、経路計画と経路実行がインターリーブであり、経路のないロボットが経路計画を行う場合、優れた経路を持つロボットは実行しない。
地平線をベースとしない集中型アルゴリズムを提案する。
事前に割り当てられた目標に到達したロボットのサブセットに対して、いつでもパスを計画し、残りは傑出したパスを実行する。
論文 参考訳(メタデータ) (2024-03-15T16:51:30Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - Active Visual Localization for Multi-Agent Collaboration: A Data-Driven Approach [47.373245682678515]
本研究は、視点変化の課題を克服するために、アクティブな視覚的ローカライゼーションをどのように利用できるかを検討する。
具体的には、与えられた場所における最適な視点を選択する問題に焦点をあてる。
その結果,既存の手法と比較して,データ駆動方式の方が優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-04T08:18:30Z) - GNM: A General Navigation Model to Drive Any Robot [67.40225397212717]
視覚に基づくナビゲーションのための一般的な目標条件付きモデルは、多くの異なるが構造的に類似したロボットから得られたデータに基づいて訓練することができる。
ロボット間の効率的なデータ共有に必要な設計決定について分析する。
我々は、訓練されたGNMを、下四極子を含む様々な新しいロボットに展開する。
論文 参考訳(メタデータ) (2022-10-07T07:26:41Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - Smooth Exploration for Robotic Reinforcement Learning [11.215352918313577]
強化学習(Reinforcement Learning, RL)は、ロボットが現実世界との対話からスキルを学ぶことを可能にする。
実際には、Deep RLで使用される非構造的なステップベースの探索は、実際のロボットにジャーキーな動きパターンをもたらす。
本稿では、状態依存探索(SDE)を現在のDeep RLアルゴリズムに適応させることにより、これらの問題に対処する。
論文 参考訳(メタデータ) (2020-05-12T12:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。