論文の概要: GUIDE: Goal-Initialized Directional Understanding for End-to-End Visual Navigation
- arxiv url: http://arxiv.org/abs/2606.10832v1
- Date: Tue, 09 Jun 2026 13:19:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.034056
- Title: GUIDE: Goal-Initialized Directional Understanding for End-to-End Visual Navigation
- Title(参考訳): GUIDE: エンド・ツー・エンド視覚ナビゲーションのためのゴール初期化方向理解
- Authors: Liang Wang, Jin Jin, KanZhong Yao, YiBin Wu, Fangqiang Ding, Jin Wang, Jun Wu, Zhe Sun, Qiuguo Zhu,
- Abstract要約: GUIDEは、完全にエンドツーエンドの強化学習フレームワークであり、内部の方向性の認識を育むために設計されている。
本研究では,四足歩行ロボットにおけるシミュレーションと実世界のシナリオの双方にまたがって提案した枠組みを評価する。
実験の結果、GUIDEは信頼性の高いエゴモーションと方向性の認識を学習し、完全なエンドツーエンドのデプロイポリシーを可能にすることがわかった。
- 参考スコア(独自算出の注目度): 22.535896749415627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-based visual navigation for legged robots typically relies on continuous goal updates from hierarchical state estimation to provide a persistent directional reference. This reliance incurs additional sensory and computational overhead and deviates from fully end-to-end mobile autonomy. Furthermore, under partial observability, policies are prone to learn myopic behaviors, easily becoming trapped in dead ends and complex structural layouts. To address these limitations, we investigate a goal-initialized navigation setting, where the target is provided only once at the beginning of an episode, requiring the robot to operate based on intrinsic spatial memory without subsequent goal updates from external modules. In this work, we propose GUIDE, a fully end-to-end reinforcement learning framework designed to cultivate internal directional awareness. Specifically, GUIDE incorporates a spatial anchor predictor that leverages multi-frequency proprioceptive history to extract egomotion representations, thereby maintaining a persistent long-horizon spatial context for navigation. Concurrently, it utilizes raw depth streams to perceive local environmental geometry. We evaluate the proposed framework across both simulation and real-world scenarios on a quadruped robot. Experiments show that GUIDE learns reliable egomotion and directional awareness, enabling a fully end-to-end deployed policy to safely navigate through dense clutter and structured mazes without subsequent goal guidance or prior maps.
- Abstract(参考訳): 脚付きロボットの学習に基づく視覚ナビゲーションは、通常、永続的な方向参照を提供するために階層的状態推定からの継続的なゴール更新に依存する。
この依存は、追加の感覚と計算オーバーヘッドを引き起こし、完全なエンドツーエンドのモバイル自律性から逸脱する。
さらに、部分的な可観測性の下では、ポリシーは筋電図の振る舞いを学習しやすく、死の端や複雑な構造的レイアウトに容易に閉じ込められる。
これらの制約に対処するために,本研究では,目標を1回だけ設定する目標初期化ナビゲーション設定について検討する。
本稿では,内部指向性認知の育成を目的とした,完全エンドツーエンドの強化学習フレームワークであるGUIDEを提案する。
特に、GUIDEは、多周波固有受容履歴を活用する空間アンカー予測器を組み込んで、エゴモーション表現を抽出し、ナビゲーションのための長期空間コンテキストを持続的に維持する。
同時に、生の深度の流れを利用して局所的な環境形状を知覚する。
本研究では,四足歩行ロボットにおけるシミュレーションと実世界のシナリオの双方にまたがって提案した枠組みを評価する。
実験の結果、GUIDEは信頼性の高い自我と方向性の認識を学習し、完全なエンドツーエンドのデプロイポリシーにより、その後のゴールガイダンスや事前マップを使わずに、密集した迷路や構造化された迷路を安全にナビゲートできることがわかった。
関連論文リスト
- AllDayNav: Lifelong Navigation via Real-World Reinforcement Learning [15.951251568937074]
我々は,大規模モデルの数十億のパラメータにシーンダイナミクスを暗黙的にエンコードする,生涯にわたる自己学習ナビゲーションフレームワークであるAllDayNavを提案する。
実験の結果、AllDayNavは100ドルに近い成功率を実現し、パス効率とロバストネスにおいて、強いマップベース、VLM、RLベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-06-09T14:35:53Z) - SpaceVLN: A Zero-Shot Vision-and-Language Navigation Agent with Online Spatial Cognitive Memory and Reasoning [59.64305326980364]
SpaceVLNは、空間認知記憶とタスク誘導空間推論を中心に構築されたナビゲーションエージェントである。
このメモリ上に構築されたSpatial-CoTは、タスクプログレス推論と空間知覚、分析、予測を統合する。
R2R-CE、RxR-CE、GN-Bench、HM3D-OVONの他、SpaceVLNは最先端のゼロショット性能を実現している。
論文 参考訳(メタデータ) (2026-06-08T03:42:08Z) - IntentReact: Guiding Reactive Object-Centric Navigation via Topological Intent [38.14789750420476]
目的条件付きオブジェクト中心ナビゲーションフレームワークであるIntentReactを提案する。
従来のオブジェクト中心ナビゲーション手法と比較して,ナビゲーションの成功率と実行品質が向上した。
論文 参考訳(メタデータ) (2026-03-26T12:32:11Z) - SignNav: Leveraging Signage for Semantic Visual Navigation in Large-Scale Indoor Environments [57.79171900005793]
人間は、大規模屋内環境内の目的地に向かうために、手話によって提供される意味的ヒントを日常的に活用する。
本稿では,手話からの意味的ヒントを解釈し,現在の観察に基づくその後の行動の推論を行うための,新しい具体的ナビゲーションタスクSignNavを紹介する。
空間認識モジュールは物理的世界へのサインの意味的ヒントを基盤として,時間認識モジュールは歴史的状態と現在の観測との長距離依存性を捉えている。
論文 参考訳(メタデータ) (2026-03-17T06:36:26Z) - OpenFrontier: General Navigation with Visual-Language Grounded Frontiers [54.661157616245966]
オープンワールドナビゲーションでは、複雑な日常環境においてロボットが意思決定を行う必要がある。
近年の視覚-言語ナビゲーション(VLN)と視覚-言語-アクション(VLA)モデルは、自然言語で条件付けられたエンドツーエンドのポリシーを実現する。
多様な視覚をシームレスに統合するトレーニングフリーナビゲーションフレームワークであるOpenFrontierを提案する。
論文 参考訳(メタデータ) (2026-03-05T17:02:22Z) - AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild [62.47761809929869]
視覚言語ナビゲーション(VLN)は、視覚的観察とともに言語指示を解釈することで、知的エージェントが環境をナビゲートする必要がある。
無人航空機(UAV)の現在のVLN研究は、所定のルートに沿ってUAVを誘導するための詳細な指示に依存している。
本稿では,自律型UAVナビゲーションのためのエンド・ツー・エンドのビジョン・ランゲージ・アクションモデルであるAutoFlyを提案する。
論文 参考訳(メタデータ) (2026-02-10T11:08:07Z) - Reinforcement Learning for Active Perception in Autonomous Navigation [12.508044072300839]
本稿では,複雑で未知の環境での自律ナビゲーションにおける能動的認識の課題に対処する。
本稿では,ロボットが目標を達成するだけでなく,カメラを積極的に制御して状況認識を高める,エンドツーエンドの強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-01T14:54:40Z) - NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants [24.689242976554482]
慣れ親しんだ環境をナビゲートすることは、家庭用ロボットにとって大きな課題となる。
既存の強化学習手法は、直接新しい環境に移行することはできない。
我々は、事前学習された基礎モデルの論理知識と一般化能力をゼロショットナビゲーションに転送しようと試みる。
論文 参考訳(メタデータ) (2025-02-19T17:27:47Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。