論文の概要: AllDayNav: Lifelong Navigation via Real-World Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.10927v1
- Date: Tue, 09 Jun 2026 14:35:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.049775
- Title: AllDayNav: Lifelong Navigation via Real-World Reinforcement Learning
- Title(参考訳): AllDayNav: 実世界強化学習による生涯ナビゲーション
- Authors: Hang Yin, Yinan Liang, Jiazhao Zhang, Jiahang Liu, Minghan Li, Zhizheng Zhang, He Wang,
- Abstract要約: 我々は,大規模モデルの数十億のパラメータにシーンダイナミクスを暗黙的にエンコードする,生涯にわたる自己学習ナビゲーションフレームワークであるAllDayNavを提案する。
実験の結果、AllDayNavは100ドルに近い成功率を実現し、パス効率とロバストネスにおいて、強いマップベース、VLM、RLベースラインを一貫して上回っていることがわかった。
- 参考スコア(独自算出の注目度): 15.951251568937074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lifelong embodied navigation in dynamic environments requires robots to form persistent scene understanding from fragmentary observations, which remains difficult for existing methods that rely on explicit maps or scene graphs and struggle to generalize beyond structured settings. We propose AllDayNav, a lifelong self-learning navigation framework that implicitly encodes scene dynamics into the billion-scale parameters of a large model via reinforcement learning, powered by a self-evolving multimodal memory that maintains and updates visual keyframes, semantic descriptions, and temporal context while autonomously generating open-vocabulary instructions, image goals, and structured rewards. Experiments in both synthetic and real-world environments across cross-room, cross-episode, and cross-task scenarios show that AllDayNav achieves success rates approaching $100\%$ and consistently surpasses strong map-based, VLM, and RL baselines in path efficiency and robustness, demonstrating implicit, memory-driven reinforcement learning as a scalable alternative to explicit mapping for reliable lifelong navigation.
- Abstract(参考訳): 動的環境における長時間の具体化ナビゲーションは、断片的な観察から永続的なシーン理解をロボットに要求するが、これは明示的な地図やシーングラフに依存し、構造化された設定を超えた一般化に苦慮している既存の方法にとって依然として困難である。
視覚的キーフレーム,セマンティック記述,時間的コンテキストの維持と更新を行う自己進化型マルチモーダルメモリを利用して,オープン語彙命令,イメージゴール,構造化報酬を自動生成しながら,大規模モデルの10億のパラメータにシーンダイナミクスを暗黙的にエンコードする,生涯的自己学習ナビゲーションフレームワークであるAllDayNavを提案する。
クロスルーム、クロスエピソード、クロスタスクのシナリオにわたる、合成環境と実世界の両方の環境での実験では、AllDayNavは100ドル%のアプローチで成功率を達成し、パス効率と堅牢性において強力なマップベース、VLM、RLベースラインを一貫して上回り、暗黙的、メモリ駆動強化学習を、信頼できる生涯ナビゲーションのための明示的なマッピングに代わるスケーラブルな代替手段として示す。
関連論文リスト
- GUIDE: Goal-Initialized Directional Understanding for End-to-End Visual Navigation [22.535896749415627]
GUIDEは、完全にエンドツーエンドの強化学習フレームワークであり、内部の方向性の認識を育むために設計されている。
本研究では,四足歩行ロボットにおけるシミュレーションと実世界のシナリオの双方にまたがって提案した枠組みを評価する。
実験の結果、GUIDEは信頼性の高いエゴモーションと方向性の認識を学習し、完全なエンドツーエンドのデプロイポリシーを可能にすることがわかった。
論文 参考訳(メタデータ) (2026-06-09T13:19:30Z) - OpenFrontier: General Navigation with Visual-Language Grounded Frontiers [54.661157616245966]
オープンワールドナビゲーションでは、複雑な日常環境においてロボットが意思決定を行う必要がある。
近年の視覚-言語ナビゲーション(VLN)と視覚-言語-アクション(VLA)モデルは、自然言語で条件付けられたエンドツーエンドのポリシーを実現する。
多様な視覚をシームレスに統合するトレーニングフリーナビゲーションフレームワークであるOpenFrontierを提案する。
論文 参考訳(メタデータ) (2026-03-05T17:02:22Z) - Towards Open Environments and Instructions: General Vision-Language Navigation via Fast-Slow Interactive Reasoning [58.25418970608328]
Vision-Language Navigationは、エージェントが言語命令に基づいてターゲット場所へナビゲートできるようにすることを目的としている。
最近の研究は、迅速で遅い認知システムによって、人間は安定したポリシーを生成できることを示している。
本稿では,動的対話型高速スロー推論フレームワークであるlow4fast-VLNを提案する。
論文 参考訳(メタデータ) (2026-01-14T03:22:16Z) - VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory [43.2995099083993]
VLAモデルは、認識と計画を統合することで、航法を具現化する有望な可能性を示してきた。
既存のVLAモデルは、観察から行動へのリアクティブマッピングに直接依存している。
VLingNav(VLAモデル)を提案する。
論文 参考訳(メタデータ) (2026-01-13T15:43:43Z) - CausalNav: A Long-term Embodied Navigation System for Autonomous Mobile Robots in Dynamic Outdoor Scenarios [20.83088545971651]
CausalNavは、動的な屋外環境に適したグラフベースのセマンティックナビゲーションフレームワークである。
LLMを用いたマルチレベルセマンティック・シーングラフを構築し、粗粒度マップデータと細粒度オブジェクトエンティティを階層的に統合する。
オフラインマップデータとリアルタイム認識を融合することにより、Embodied Graphはさまざまな空間的粒度にわたる堅牢なナビゲーションをサポートする。
論文 参考訳(メタデータ) (2026-01-05T08:00:34Z) - From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning [59.88543114325153]
本稿では,航法基礎モデルの強化学習能力を高めるためのSeeing-to-Experiencingフレームワークを提案する。
S2Eは、ビデオの事前トレーニングとRLによるポストトレーニングの長所を組み合わせたものだ。
実世界のシーンを3DGSで再現した3D画像に基づく総合的なエンドツーエンド評価ベンチマークであるNavBench-GSを構築した。
論文 参考訳(メタデータ) (2025-07-29T17:26:10Z) - Learning to Tune Like an Expert: Interpretable and Scene-Aware Navigation via MLLM Reasoning and CVAE-Based Adaptation [12.561993540768729]
サービスロボットのための解釈可能かつシーン対応ナビゲーションフレームワークLE-Navについて述べる。
ゼロショットシーン理解を実現するために,ワンショット例とチェーン・オブ・シークレット・プロンプト戦略を利用する。
実験の結果、LE-Navは多種多様なプランナーやシナリオにまたがる人間レベルのチューニングを実現するためのハイパーパラメータを生成できることがわかった。
論文 参考訳(メタデータ) (2025-07-15T05:37:24Z) - NavMorph: A Self-Evolving World Model for Vision-and-Language Navigation in Continuous Environments [67.18144414660681]
VLN-CE(Vision-and-Language Navigation in Continuous Environments)は、自然言語命令によって誘導される複雑な環境において、エージェントがシーケンシャルなナビゲーションアクションを実行する必要がある。
人間の認知にインスパイアされたNavMorphは、VLN-CEタスクにおける環境理解と意思決定を強化する自己進化型世界モデルフレームワークである。
論文 参考訳(メタデータ) (2025-06-30T02:20:00Z) - NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants [24.689242976554482]
慣れ親しんだ環境をナビゲートすることは、家庭用ロボットにとって大きな課題となる。
既存の強化学習手法は、直接新しい環境に移行することはできない。
我々は、事前学習された基礎モデルの論理知識と一般化能力をゼロショットナビゲーションに転送しようと試みる。
論文 参考訳(メタデータ) (2025-02-19T17:27:47Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。