論文の概要: AgenticNav: Zero-Shot Vision-and-Language Navigation as a Tool-Calling Harness
- arxiv url: http://arxiv.org/abs/2606.10577v1
- Date: Tue, 09 Jun 2026 08:43:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.007891
- Title: AgenticNav: Zero-Shot Vision-and-Language Navigation as a Tool-Calling Harness
- Title(参考訳): AgenticNav:ツールカーリングのハーネスとしてのゼロショットビジョンとランゲージナビゲーション
- Authors: Yijian Li, Changze Li, Hantian Shi, Jiaying Luo, Jiyuan Cai, Ming Yang, Tong Qin,
- Abstract要約: 連続環境(VLN-CE)におけるゼロショット視覚言語ナビゲーションは,近年,大規模視覚言語モデル(VLM)で実現可能になった。
本稿では,ゼロショットVLN-CEを,VLMと環境とのエージェントインタフェースとして再考する。
我々は、アクション、深さ、メモリを呼び出し可能なツールとして公開する軽量なナビゲーションハーネスであるAgenticNavを紹介します。
- 参考スコア(独自算出の注目度): 5.851139427049915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot vision-and-language navigation in continuous environments (VLN-CE) has recently become feasible with large vision-language models (VLMs). However, existing methods typically rely on learned waypoint predictors to propose navigable actions. This severely limits the model's action space and fails to leverage depth inputs effectively. Moreover, memory is commonly handled by accumulating long textual or visual histories with substantial irrelevant context, or by retrieving cross-episode experiences, which weakens the zero-shot setting. In this paper, we rethink zero-shot VLN-CE as an agentic interface between the VLM and the environment, and present AgenticNav, a lightweight navigation harness that exposes action, depth, and memory as callable tools. Instead of choosing from predicted waypoints, the action tool allows the VLM to directly select a target pixel in RGB observations, converting it into executable motion. Depth is exposed through an on-demand pixel-depth tool, enabling the VLM to request precise metric distances only where they matter. For memory, AgenticNav provides a compact map image summarizing the historical trajectory, paired with a recall tool that allows the VLM to selectively revisit past visual observations without overwhelming the prompt context. On the R2R-CE benchmark, AgenticNav establishes new state-of-the-art (SOTA) performance among zero-shot methods given the same VLM backbone. Real-world validation further highlights its zero-shot generalization compared to prior methods. Ablations show that our action tool design outperforms traditional waypoint predictors, and that depth tool and agentic memory further contribute to navigation performance.
- Abstract(参考訳): 連続環境(VLN-CE)におけるゼロショット視覚言語ナビゲーションは,近年,大規模視覚言語モデル(VLM)で実現可能になった。
しかし、既存の手法は通常、学習したウェイポイント予測器を使ってナビゲート可能なアクションを提案する。
これはモデルのアクション空間を著しく制限し、奥行き入力を効果的に活用できない。
さらに、メモリは、意味のないコンテキストで長いテキストや視覚履歴を蓄積したり、ゼロショット設定を弱めるクロスエピソード体験を検索することで、一般的に処理される。
本稿では、ゼロショットVLN-CEをVLMと環境の間のエージェントインターフェースとして再考し、アクション、深さ、メモリを呼び出し可能なツールとして公開する軽量ナビゲーションハーネスであるAgenticNavについて述べる。
予測されたウェイポイントから選択する代わりに、アクションツールは、VLMがRGB観測においてターゲットピクセルを直接選択し、実行可能なモーションに変換することを可能にする。
深さはオンデマンドのピクセル深度ツールによって露呈され、VLMは重要な場所のみ正確な距離を求めることができる。
メモリに関しては、AgenticNavは、過去の軌跡を要約したコンパクトなマップイメージを提供し、リコールツールと組み合わせることで、VLMが迅速なコンテキストを克服することなく、過去の視覚的観察を選択的に再考することができる。
R2R-CEベンチマークでは、AgenticNavは、同じVLMバックボーンが与えられたゼロショットメソッドの中で、新しい最先端(SOTA)パフォーマンスを確立する。
実世界の検証は、以前の方法と比較してゼロショットの一般化をさらに強調する。
アブレーションは、我々のアクションツール設計が従来のウェイポイント予測器より優れており、ディープツールとエージェントメモリがナビゲーション性能にさらに寄与していることを示している。
関連論文リスト
- AgentVLN: Towards Agentic Vision-and-Language Navigation [78.739525400071]
VLN (Vision-and-Language Navigation) は、複雑な自然言語命令を、見えない環境での長距離ナビゲーションに接地するために、エンボディエージェントを必要とする。
本稿では,エッジコンピューティングプラットフォーム上に展開可能な,新規かつ効率的なナビゲーションフレームワークであるAgentVLNを提案する。
論文 参考訳(メタデータ) (2026-03-18T12:43:47Z) - 3DGSNav: Enhancing Vision-Language Model Reasoning for Object Navigation via Active 3D Gaussian Splatting [12.057873540714098]
3DGSNavは、3D Gaussian Splatting (3DGS)を視覚言語モデル(VLM)の永続メモリとして組み込んで空間推論を強化する新しいフレームワークである。
3DGSNavは環境の3DGS表現を段階的に構築し、フロンティア対応のファーストパーソンビューの軌跡誘導自由視点レンダリングを可能にする。
ナビゲーション中、リアルタイムオブジェクト検出器が潜在的なターゲットをフィルタリングし、VLM駆動のアクティブな視点スイッチングがターゲットを再検証する。
論文 参考訳(メタデータ) (2026-02-12T16:41:26Z) - ImagineNav++: Prompting Vision-Language Models as Embodied Navigator through Scene Imagination [36.489349671649045]
VLM(Vision-Language Models)は、オンボードのRGB/RGB-Dストリームのみを使用してマップレスなビジュアルナビゲーションを実現し、空間的な知覚と計画の可能性を解き放つ。
我々はこれを、想像力によるナビゲーションフレームワークImagineNav++で実現している。
空間的整合性を維持するため,スパース・トゥ・デンス・フレームワークによる観測を階層的に統合する選択的葉形成記憶機構を開発した。
論文 参考訳(メタデータ) (2025-12-19T10:40:16Z) - PIGEON: VLM-Driven Object Navigation via Points of Interest Selection [50.77437819030925]
視覚言語モデル(VLM)を用いたオブジェクトナビゲーションのための興味あるガイド探索点PIGEONを提案する。
我々は、PIGEON-VLと呼ばれる大規模な視覚言語モデル(VLM)を用いて、探索中に形成された関心のポイント(PoI)を選択し、次に低レベルのプランナーを用いて行動出力を行い、決定頻度を増大させる。
従来のオブジェクトナビゲーションベンチマークの実験では、我々のゼロショット転送方式は最先端のパフォーマンスを達成する一方、RLVRはモデルのセマンティックガイダンス機能をさらに強化し、リアルタイムナビゲーションにおける深い推論を可能にしている。
論文 参考訳(メタデータ) (2025-11-17T10:19:13Z) - History-Augmented Vision-Language Models for Frontier-Based Zero-Shot Object Navigation [5.343932820859596]
本稿では、動的履歴認識プロンプトの利用を先駆する新しいゼロショットObjectNavフレームワークを提案する。
私たちの中心となるイノベーションは、VLMにアクション履歴コンテキストを提供し、ナビゲーションアクションのセマンティックガイダンススコアを生成することです。
また、検出対象に対する最終アプローチを洗練するためのVLM支援のウェイポイント生成機構も導入する。
論文 参考訳(メタデータ) (2025-06-19T21:50:16Z) - SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation [83.4599149936183]
既存のゼロショットオブジェクトナビゲーション手法は、空間的に閉じたオブジェクトのテキストでLCMをプロンプトする。
本稿では,3次元シーングラフを用いて観察されたシーンを表現することを提案する。
我々は,MP3D,HM3D,RoboTHOR環境において,SG-Navが従来のゼロショット法を10%以上のSRで上回る大規模な実験を行った。
論文 参考訳(メタデータ) (2024-10-10T17:57:19Z) - Narrowing the Gap between Vision and Action in Navigation [28.753809306008996]
本稿では,高レベル動作予測を併用した低レベル動作デコーダを提案する。
我々のエージェントは、ハイレベルアクションとローレベルアクションの両方の強力なベースラインと比較して、ナビゲーション性能の指標を改善することができる。
論文 参考訳(メタデータ) (2024-08-19T20:09:56Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。