論文の概要: NavWM: A Unified Navigation World Model for Foresight-Driven Planning
- arxiv url: http://arxiv.org/abs/2606.24101v1
- Date: Tue, 23 Jun 2026 03:30:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.755724
- Title: NavWM: A Unified Navigation World Model for Foresight-Driven Planning
- Title(参考訳): NavWM:予見型計画のための統一ナビゲーションワールドモデル
- Authors: Yanghong Mei, Longteng Guo, Ming-Ming Yu, Guiyu Zhao, Xingjian He, Jing Liu,
- Abstract要約: NavWMは、潜在世界推論、マルチモーダルアクション予測、制御可能な視覚生成をシームレスに統合する統合ナビゲーションワールドモデルである。
決定論的なポリシーの限界を克服するために、我々はアンカーベースのマルチモーダル軌道予測フレームワークを導入する。
多様なデータセットにわたる実験により、NavWMは最先端の技術を著しく進歩させることが示された。
- 参考スコア(独自算出の注目度): 15.801647085785826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional visual navigation policies often struggle with myopic decision-making and mode collapse in complex environments. While world models offer a promising alternative, existing paradigms typically isolate perception, generation, and control, failing to capture their shared spatio-temporal dynamics. In this paper, we propose NavWM, a unified navigation world model that seamlessly integrates latent world reasoning, multimodal action prediction, and controllable visual generation. At its core, NavWM leverages latent world tokens to distill geometric and semantic priors, endowing the agent with robust structural understanding. To overcome the limitations of deterministic policies, we introduce an anchor-based multimodal trajectory forecasting framework that generates a diverse action space. This inherent diversity explicitly empowers the generative world model to act as a robust closed-loop planner, utilizing visual foresight to evaluate and select the optimal path. Extensive experiments across diverse robotics datasets demonstrate that NavWM significantly advances the state-of-the-art, delivering remarkable improvements in both high-fidelity future state generation and zero-shot navigation success.
- Abstract(参考訳): 従来の視覚ナビゲーションポリシーは、複雑な環境での筋力決定とモード崩壊に苦慮することが多い。
世界モデルは有望な代替手段を提供するが、既存のパラダイムは通常、知覚、生成、制御を分離し、共有時相ダイナミクスを捉えない。
本稿では,潜在世界推論,マルチモーダル動作予測,制御可能な視覚生成をシームレスに統合する統合ナビゲーションワールドモデルであるNavWMを提案する。
NavWMの中核は、潜在世界トークンを利用して、幾何学的および意味論的先行を蒸留し、エージェントに堅牢な構造的理解を与える。
決定論的なポリシーの限界を克服するために,多様な行動空間を生成するアンカーベースのマルチモーダル軌道予測フレームワークを導入する。
この固有の多様性は、生成的世界モデルが堅牢なクローズドループプランナーとして機能し、最適経路の評価と選択に視覚的フォレストを利用することをはっきりと示している。
多様なロボティクスデータセットにわたる大規模な実験は、NavWMが最先端を著しく進歩させ、高忠実な将来の状態生成とゼロショットナビゲーションの成功の両方において顕著な改善をもたらすことを実証している。
関連論文リスト
- WorldFly: A World-Model-Based Vision-Language-Action Model for UAV Navigation [42.8714305455232]
将来の状態を「想像」する能力は、そのような部分的な可観測性の下での堅牢な意思決定に不可欠である、と我々は主張する。
We propose WorldFly, a novel world-model-based VLA framework that using a dual-branch linked flow matching mechanism to jointly generate future video predictions and navigation action。
論文 参考訳(メタデータ) (2026-06-04T13:23:05Z) - WAM-Nav: Asymmetric Latent World-Action Modeling for Unified Visual Navigation [31.539730066120374]
視覚ナビゲーションは、複雑な幾何学的および物理的制約の下で滑らかで衝突のない軌道を生成する必要がある。
WAM-Navは,視覚ナビゲーションを具体化した潜在世界行動モデルであり,行動生成と潜時視予知を共同で学習する。
論文 参考訳(メタデータ) (2026-06-03T14:05:19Z) - Uni-World VLA: Interleaved World Modeling and Planning for Autonomous Driving [52.04950569530877]
我々は、将来のフレーム予測と軌道計画の密接なインターリーブを行う統合視覚言語行動モデルUni-World VLAを提案する。
提案手法は,高忠実度将来のフレーム予測を行いながら,競合する閉ループ計画性能を実現する。
論文 参考訳(メタデータ) (2026-03-28T14:39:51Z) - Bridging Scene Generation and Planning: Driving with World Model via Unifying Vision and Motion Representation [66.7879424097418]
We present WorldDrive, a holistic framework that couples scene generation and real-time planning through unified vision and motion representation。
動きの表現、視覚的表現、エゴ状態の間の単純な相互作用は、高品質でマルチモーダルな軌道を生成することができる。
NAVSIM、NAVSIM-v2、nuScenesベンチマークの実験は、WorldDriveが視覚のみの手法で主要な計画性能を達成することを示した。
論文 参考訳(メタデータ) (2026-03-16T07:59:39Z) - An Efficient and Multi-Modal Navigation System with One-Step World Model [11.582535121562247]
現在のナビゲーションワールドモデルは、多段階拡散プロセスと自動回帰フレーム・バイ・フレーム生成に依存している。
本稿では,効率的な空間的注意力を備えたワンステップ生成パラダイムと3次元U-Netバックボーンを提案する。
この設計は、推論遅延を大幅に低減し、予測性能を向上しつつ、高周波制御を可能にする。
論文 参考訳(メタデータ) (2026-01-18T06:29:56Z) - AstraNav-World: World Model for Foresight Control and Consistency [40.07910402326578]
ダイナミックな環境での身体的ナビゲーションは、世界がどのように進化し、どのように行動が時間とともに広がるかを正確に予測する必要がある。
AstraNav-Worldは、未来の視覚状態とアクションシーケンスを共同で推論するエンド・ツー・エンドの世界モデルである。
本フレームワークは,拡散型ビデオジェネレータとビジョン言語ポリシーを統合し,同期ロールアウトを実現する。
論文 参考訳(メタデータ) (2025-12-25T15:31:24Z) - From Forecasting to Planning: Policy World Model for Collaborative State-Action Prediction [57.56072009935036]
政策世界モデル(PWM)と呼ばれる新しい運転パラダイムを導入する。
PWMは、統一アーキテクチャ内での世界モデリングと軌道計画を統合する。
提案手法は,マルチビューおよびマルチモーダル入力に依存する最先端の手法に適合するか,あるいは超越する。
論文 参考訳(メタデータ) (2025-10-22T14:57:51Z) - Unified World Models: Memory-Augmented Planning and Foresight for Visual Navigation [69.94565127141483]
現在のアプローチでは、ナビゲーション計画とビジュアルワールドモデリングが分離されており、状態-アクションのミスアライメントと適応性の制限につながっている。
一つのマルチモーダル自己回帰バックボーン内に、自我中心の視線と計画を統合する統一されたメモリ拡張世界モデルUniWMを提案する。
我々は,UniWMが航法成功率を最大30%向上し,トラジェクトリエラーを強いベースラインと比較して著しく低減し,未確認のTartanDriveデータセットに印象的なゼロショット一般化を示すことを示した。
論文 参考訳(メタデータ) (2025-10-09T18:18:11Z) - Navigation World Models [68.58459393846461]
本稿では,過去の観測とナビゲーション行動に基づいて,将来の視覚観測を予測できる制御可能な映像生成モデルを提案する。
慣れ親しんだ環境では、NWMはナビゲーションの軌道をシミュレートし、目的を達成するかどうかを評価することで計画することができる。
実験は、スクラッチからの軌道計画や、外部ポリシーからサンプリングされた軌道のランク付けにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2024-12-04T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。