論文の概要: IntentNav: Learning Spatial-Visual Object Navigation from Human Demonstrations
- arxiv url: http://arxiv.org/abs/2606.08029v1
- Date: Sat, 06 Jun 2026 07:45:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.674054
- Title: IntentNav: Learning Spatial-Visual Object Navigation from Human Demonstrations
- Title(参考訳): IntentNav:人間のデモから空間的オブジェクトナビゲーションを学ぶ
- Authors: Yuxin Cai, Zongtai Li, Maonan Wang, Muyi Bao, Haokun Zhu, Ruofei Bai, Ding Zhao, Zirui Li, Wenshan Wang, Wei-Yun Yau, Ji Zhang, Chen Lv,
- Abstract要約: 我々は,人間のようなObjectNavポリシーを人間のデモから学習するフレームワークを提案する。
IntentNavはMP3D、HM3D-v1、HM3D-v2 ObjectNavベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 58.921283404811085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object navigation requires a robot to search for an unobserved target in an unknown environment by deciding where to explore next under partial observability. Effective search resembles human-like exploration: selectively probing visually promising frontiers while relying on spatial memory to avoid redundant revisits. We propose IntentNav, a spatial-visual imitation framework that learns human-like ObjectNav policies from human demonstrations. To infer high-level search intent from low-level human actions, we introduce Frontier-based Human-Intent Labeling, which looks ahead in human demonstrations and labels the frontier that best explains the demonstrator's future search direction. We construct a spatial-visual candidate space, where BEV memory tracks explored regions, unexplored frontiers, and trajectory history, while egocentric visual memory provides semantic cues for each candidate. A VLM policy is trained to select among these grounded candidates, using Intent-Aligned Objective to encourage consistent and human-like exploration. IntentNav achieves state-of-the-art performance on the MP3D, HM3D-v1 and HM3D-v2 ObjectNav benchmarks. The proposed candidate-level navigation interface transfers zero-shot to wheeled, quadruped, and humanoid robots without further VLM fine-tuning. \href{https://anonymous.4open.science/w/IntentNav/}{Project page}.
- Abstract(参考訳): オブジェクトナビゲーションでは、ロボットが未知の環境で観測対象を探索する必要がある。
視覚的に有望なフロンティアを選択的に探索し、余分な修正を避けるために空間記憶に依存している。
IntentNavは人間のようなObjectNavポリシーを人間のデモから学習する空間視覚模倣フレームワークである。
低レベルの人間の行動から高いレベルの探索意図を推定するために、フロンティアをベースとしたHuman-Intent Labelingを導入する。
本研究では,BEV が探索領域,未探索フロンティア,軌跡履歴をトラックする空間的視覚的候補空間を構築し,エゴセントリックな視覚的記憶は各候補に対して意味的手がかりを提供する。
VLMポリシは、Intent-Aligned Objectiveを使用して、一貫性と人間的な探索を促進することによって、これらの根拠のある候補の中から選択するように訓練されている。
IntentNavはMP3D、HM3D-v1、HM3D-v2 ObjectNavベンチマークで最先端のパフォーマンスを達成する。
提案した候補レベルのナビゲーションインタフェースは、VLMの微調整なしでゼロショットを車輪付き、四脚式、ヒューマノイドロボットに転送する。
\href{https://anonymous.4open.science/w/IntentNav/}{Project page}
関連論文リスト
- SpaceVLN: A Zero-Shot Vision-and-Language Navigation Agent with Online Spatial Cognitive Memory and Reasoning [59.64305326980364]
SpaceVLNは、空間認知記憶とタスク誘導空間推論を中心に構築されたナビゲーションエージェントである。
このメモリ上に構築されたSpatial-CoTは、タスクプログレス推論と空間知覚、分析、予測を統合する。
R2R-CE、RxR-CE、GN-Bench、HM3D-OVONの他、SpaceVLNは最先端のゼロショット性能を実現している。
論文 参考訳(メタデータ) (2026-06-08T03:42:08Z) - FeudalNav: A Simple Framework for Visual Navigation [7.136542835931238]
ナビゲーション決定過程を複数のレベルに分解する階層的なフレームワークを開発する。
提案手法は,簡単な経路選択ネットワークを通じてサブゴールを選択することを学習する。
トレーニングや推論にオドメトリを使わずに,Habitat AI環境におけるSOTA手法のスイートによる競合結果を示す。
論文 参考訳(メタデータ) (2026-01-15T22:10:29Z) - ImagineNav++: Prompting Vision-Language Models as Embodied Navigator through Scene Imagination [36.489349671649045]
VLM(Vision-Language Models)は、オンボードのRGB/RGB-Dストリームのみを使用してマップレスなビジュアルナビゲーションを実現し、空間的な知覚と計画の可能性を解き放つ。
我々はこれを、想像力によるナビゲーションフレームワークImagineNav++で実現している。
空間的整合性を維持するため,スパース・トゥ・デンス・フレームワークによる観測を階層的に統合する選択的葉形成記憶機構を開発した。
論文 参考訳(メタデータ) (2025-12-19T10:40:16Z) - YOPO-Nav: Visual Navigation using 3DGS Graphs from One-Pass Videos [5.7772802828964664]
本稿では,環境を3次元ガウススプラッティング(3DGS)モデルと相互接続した空間表現に符号化するYOPO-Navを提案する。
ナビゲーション中、このフレームワークはロボットの現在の視覚的観察をこの表現と整列させ、それを実証された軌道に戻す行動を予測する。
本稿では,Clearpath Jackal ロボットを用いた YOPO-Campus のトラジェクトリに対する最近の視覚ナビゲーション手法のベンチマークを行った。
論文 参考訳(メタデータ) (2025-12-10T18:32:38Z) - History-Augmented Vision-Language Models for Frontier-Based Zero-Shot Object Navigation [5.343932820859596]
本稿では、動的履歴認識プロンプトの利用を先駆する新しいゼロショットObjectNavフレームワークを提案する。
私たちの中心となるイノベーションは、VLMにアクション履歴コンテキストを提供し、ナビゲーションアクションのセマンティックガイダンススコアを生成することです。
また、検出対象に対する最終アプローチを洗練するためのVLM支援のウェイポイント生成機構も導入する。
論文 参考訳(メタデータ) (2025-06-19T21:50:16Z) - CoNav: A Benchmark for Human-Centered Collaborative Navigation [66.6268966718022]
協調ナビゲーション(CoNav)ベンチマークを提案する。
われわれのCoNavは、現実的で多様な人間の活動を伴う3Dナビゲーション環境を構築するという重要な課題に取り組む。
本研究では,長期的意図と短期的意図の両方を推論する意図認識エージェントを提案する。
論文 参考訳(メタデータ) (2024-06-04T15:44:25Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。