論文の概要: AnyGoal: Vision-Language Guided Multi-Agent Exploration for Training-Free Lifelong Navigation
- arxiv url: http://arxiv.org/abs/2606.13878v1
- Date: Thu, 11 Jun 2026 20:07:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.633887
- Title: AnyGoal: Vision-Language Guided Multi-Agent Exploration for Training-Free Lifelong Navigation
- Title(参考訳): AnyGoal: トレーニングフリーの生涯ナビゲーションのためのビジョンランゲージガイド付きマルチエージェント探索
- Authors: MoniJesu James, Marcelino Julio Fernando, Miguel Altamirano Cabrera, Dzmitry Tsetserukou,
- Abstract要約: 我々は、VLM(Vision-Language Model)をフロンティアベースの探索のコアに配置する、トレーニング不要なマルチロボットアーキテクチャであるAnyGoalを紹介する。
BVMは、VLMスコアの精度重み付けによる更新により、画素単位(mu,2)のゴール関連性を維持している。
4方向の知覚アブレーションは、開語彙検出器が支配的な障害モードを探索からゴール検証にシフトしていることを示している。
- 参考スコア(独自算出の注目度): 2.2935396753701065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end navigation policies trained on large simulation corpora degrade sharply when transferred to out-of-distribution scenes, categories, or goal modalities. Modular pipelines such as Modular GOAT are bottlenecked by closed-set object detection recall, while 3D snapshot-memory systems (e.g. 3D-Mem) accumulate dense, view-dependent representations that are heavy to maintain. We present AnyGoal, a training-free multi-robot architecture that places a Vision-Language Model (VLM) at the core of frontier-based exploration and coordinates agents through a shared 2D Gaussian Bayesian Value Map (BVM). The BVM maintains a per-pixel (mu, sigma^2) posterior over goal relevance, updated via precision-weighted fusion of VLM scores through a depth-cone mask, and is never reset between subtasks, yielding lifelong evidence accumulation. Frontiers are ranked by a convex blend of a VLM-as-judge softmax and a Bayesian UCB term on the BVM. A greedy allocator with spatial-separation penalty and commitment hysteresis distributes frontiers across agents without a centralized controller. On the full GOAT-Bench val unseen split (360 episodes, 2,669 subtasks), our dual-agent system achieves 52.4% Subtask SR at 12.7% SPL--state of the art under the strict physical regime (discrete 0.25 m steps, no teleportation, 42 deg HFOV) and a +27.5 pp improvement over Modular GOAT (24.9%). Single-agent AnyGoal achieves 41.9% Subtask SR, showing gains arise from the decision architecture. A four-way perception ablation shows that open-vocabulary detectors shift the dominant failure mode from exploration to goal verification.
- Abstract(参考訳): 大規模なシミュレーションコーパスで訓練されたエンドツーエンドナビゲーションポリシーは、アウト・オブ・ディストリビューション・シーン、カテゴリ、ゴール・モダリティに移行すると大幅に低下する。
モジュールGOATのようなモジュールパイプラインはクローズドセットのオブジェクト検出リコールによってボトルネックになり、一方3Dスナップショットメモリシステム(例えば3D-Mem)は、維持に重く、密集したビュー依存の表現を蓄積する。
我々は、VLM(Vision-Language Model)をフロンティアベースの探索のコアに配置し、2次元ガウスベイズ値マップ(BVM)を通してエージェントを協調する、トレーニングフリーのマルチロボットアーキテクチャであるAnyGoalを提案する。
BVMは1ピクセル当たり (mu, sigma^2) をゴール関連性より後方に維持し、深度コーンマスクを介してVLMスコアを精密に重畳して更新し、サブタスク間でリセットされることがなく、生涯にわたる証拠の蓄積をもたらす。
フロンティアは、VLM-as-judgeソフトマックスとBVM上のベイズ的CB項の凸混合によってランク付けされる。
空間分離のペナルティとコミットメントのヒステリシスを持つ欲張りアロケータは、中央集権的なコントローラを持たないエージェントにフロンティアを分散させる。
GOAT-Bench val unseen splits (360 episodes, 2,669 subtasks)では,厳格な物理的体制下でのSPL-of-the-art(0.25mステップ,テレポーテーションなし,42deg HFOVなし)で52.4%のSubtask SRを達成した。
シングルエージェントのAnyGoalは41.9%のSubtask SRを達成した。
4方向の知覚アブレーションは、開語彙検出器が支配的な障害モードを探索からゴール検証にシフトしていることを示している。
関連論文リスト
- CAMF-Det: Closure-Aware Multimodal Fusion for LiDAR-Camera 3D Object Detection on UAV Platforms [9.923404615359223]
LiDARとカメラを用いたマルチモーダル3Dオブジェクト検出は,地上車両のシナリオにおいて優れた性能を示した。
UAVプラットフォーム上でのLiDARカメラ3Dオブジェクト検出のためのクロージャ対応マルチモーダル融合フレームワークであるCAMF-Detを提案する。
我々は、CAMF-Detが全ての難易度で最高のパフォーマンスを達成し、ハードレベルのmAP$_mathrmBEV$9.43%と4.88%の最高の競合手法で改善したことを示す。
論文 参考訳(メタデータ) (2026-06-08T07:40:17Z) - Uni-LaViRA: Language-Vision-Robot Actions Translation for Unified Embodied Navigation [60.07205156194741]
身体的なナビゲーションでは、エージェントが言語や視覚的な観察を、実際に見たことのない環境を通して実際のロボットを駆動する空間的な行動の流れにマッピングする必要がある。
統合エージェントアーキテクチャであるUni-LaViRAを4つのタスクファミリと4つの異種実ロボットに拡張する。
論文 参考訳(メタデータ) (2026-05-26T18:52:04Z) - GoalVLM: VLM-driven Object Goal Navigation for Multi-Agent System [0.0]
ゼロショットでオープンなオブジェクトナビゲーションのための協調型マルチエージェントフレームワークであるGoalVLMを提案する。
GoalVLMは、VLM(Vision-Language Model)を直接決定ループに統合し、SAM3はテキストプロンプト検出とセグメンテーション、SpaceOMは空間推論を行う。
GOAT-Bench val_unseenにおけるGoalVLMの評価を行った。
論文 参考訳(メタデータ) (2026-03-18T18:59:33Z) - Affordance Field Intervention: Enabling VLAs to Escape Memory Traps in Robotic Manipulation [25.496791183299692]
Affordance Field Intervention (AFI)は、SAFをオンデマンドプラグインとして使用してVLA動作をガイドする軽量なハイブリッドフレームワークである。
VLAバックボーンの平均改善率は23.5%である。
論文 参考訳(メタデータ) (2025-12-08T11:57:13Z) - Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - Object Navigation with Structure-Semantic Reasoning-Based Multi-level Map and Multimodal Decision-Making LLM [18.406869393228813]
環境属性マップ(EAM)とMLLM階層推論モジュール(MHR)を用いたアクティブオブジェクトナビゲーションフレームワークを提案する。
EAMは、観測された環境をSBERTで推論し、観測されていない環境を拡散で予測することによって構築される。
MHRはEAMにインスパイアされてフロンティア探索決定を行い、長距離シナリオにおける回路軌道を避けて経路効率を向上させる。
論文 参考訳(メタデータ) (2025-06-06T09:08:40Z) - RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics [67.11221574129937]
空間参照は、3D物理世界と相互作用するエンボディロボットの基本的な能力である。
本稿では,まず空間的理解を正確に行うことのできる3次元VLMであるRoboReferを提案する。
RoboReferは、強化微調整による一般化された多段階空間推論を推進している。
論文 参考訳(メタデータ) (2025-06-04T17:59:27Z) - MetaBEV: Solving Sensor Failures for BEV Detection and Map Segmentation [104.12419434114365]
現実世界のアプリケーションでは、センサの破損や故障がパフォーマンスの低下につながります。
極端に現実世界の環境に対処するための,MetaBEVと呼ばれる堅牢なフレームワークを提案する。
MetaBEVは、完全なモダリティと腐敗したモダリティの両方に大きなマージンで、先行技術よりも優れています。
論文 参考訳(メタデータ) (2023-04-19T16:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。