Fugu-MT 論文翻訳(概要): Slow Brain, Fast Planner: Latency-Resilient VLM-Augmented Urban Navigation

論文の概要: Slow Brain, Fast Planner: Latency-Resilient VLM-Augmented Urban Navigation

arxiv url: http://arxiv.org/abs/2606.20458v1
Date: Thu, 18 Jun 2026 16:40:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-19 18:23:39.991497
Title: Slow Brain, Fast Planner: Latency-Resilient VLM-Augmented Urban Navigation
Title（参考訳）: スローブレイン、高速プランナー:遅延耐性VLM強化都市ナビゲーション
Authors: Zhenghao "Mark'' Peng, Honglin He, Quanyi Li, Yukai Ma, Bolei Zhou,
Abstract要約: 歩道ナビゲーションのための学習ベースのプランナーは、様々な候補軌道をリアルタイムで生成することができる。しかし、それらのスコアリング機能は、しばしば挑戦的な状況において最良の軌道を選択することに失敗する。提案するVLM-Plannerインタフェースは、VLMを用いてプランナーの提案セットから候補インデックスを選択し、プランナーの最初の出力と融合する。
参考スコア（独自算出の注目度）: 37.49678227133038
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning-based planners for sidewalk navigation can generate diverse candidate trajectories in real time, yet their scoring functions often fail to select the best trajectory in challenging situations, outputting trajectories that make the mobile robot drive onto grass, toward pedestrians, or in the wrong direction, even when better candidates exist in the same set. We call this the trajectory scoring gap: in real-world sidewalk navigation, the gap between an anchor-based planner's top choice and the best possible candidate is substantial, likely due to limited high-level scene understanding capability of the planner. Rather than replacing the planner with an end-to-end Vision-Language-Action model, we propose a VLM-Planner interface that uses a VLM to select a candidate index from the planner's proposal set and then fuse it with the planner's initial output. However, VLMs take 1--3s per query and so cannot directly drive a 5--20Hz control loop. We contribute a training-free, latency-resilient trajectory-level fusion layer that turns a stale VLM selection into real-time planner scoring via geometric similarity with exponential decay. On $\sim$2,000 challenging real-world scenarios (e.g., junctions, pedestrian encounters), VLM selection achieves 30% ADE reduction versus the planner's best selection, while the planner remains competitive in routine situations. In simulation, Score Fusion maintains >80% success rate with delays up to 5s. We demonstrate the full system on a mobile robot navigating challenging campus sidewalks with varied network latency.
Abstract（参考訳）: 歩道ナビゲーションのための学習ベースのプランナーは、様々な候補軌跡をリアルタイムで生成することができるが、それらのスコアリング機能は、困難な状況下で最適な軌跡を選択するのに失敗し、移動ロボットを芝生、歩行者、あるいは間違った方向に運転させる軌跡を出力する。現実の歩道ナビゲーションでは、アンカーベースプランナーの最高の選択と最高の候補とのギャップは、おそらくプランナーの高レベルシーン理解能力に制限があるため、かなり大きい。本稿では、プランナーをエンドツーエンドのビジョン・ランゲージ・アクション・モデルに置き換える代わりに、VLMを用いてプランナーの提案セットから候補インデックスを選択し、プランナーの初期出力と融合させるVLM-プランナーインタフェースを提案する。しかし、VLMはクエリ毎に1～3秒かかるため、直接5～20Hzの制御ループを駆動することはできない。我々は, 定常なVLM選択を, 指数減衰と幾何学的類似性によりリアルタイムなプランナースコアに変換する, 無トレーニング, 遅延耐性のトラジェクトリレベル融合層に寄与する。 $\sim$2,000の挑戦的な現実のシナリオ(例えば、ジャンクション、歩行者の遭遇)では、VLMの選択はプランナーの最高の選択に対して30%のADE還元を達成する一方、プランナーは日常的な状況において競争力を維持する。シミュレーションでは、Score Fusionは最大5秒までの遅延で80%以上の成功率を維持している。ネットワーク遅延の異なる、挑戦的なキャンパス歩道を走行する移動ロボットの完全なシステムを実演する。

関連論文リスト

Test-Time Trajectory Optimization for Autonomous Driving [77.87162309994567]
自動運転のためのエンド・ツー・エンドのプランナーは、通常、一連の候補軌跡を生成し、それぞれをスコアし、最高スコアの候補を返す。我々は、スコアラを学習軌跡レベルの報酬関数として扱い、それを最大化する軌跡を探索する。提案手法であるTOAD(Cross-Entropy Method:クロスエントロピー法)をテスト時に実行し,プランナーの提案からウォームスタートする。
論文参考訳（メタデータ） (2026-06-05T11:39:27Z)
LLaViDA: A Large Language Vision Driving Assistant for Explicit Reasoning and Enhanced Trajectory Planning [28.59507336524504]
軌道計画は、自律運転の基本的かつ挑戦的な要素である。物体の動き予測に視覚言語モデル(VLM)を利用するLLaViDAを提案する。 NuScenesベンチマークでは、LLaViDAは最先端のエンドツーエンドおよび最近のVLM/LLMベースのベースラインを超越して、オープンループ軌道計画タスクを実行している。
論文参考訳（メタデータ） (2025-12-20T04:38:35Z)
SCoTT: Strategic Chain-of-Thought Tasking for Wireless-Aware Robot Navigation in Digital Twins [78.53885607559958]
無線対応経路計画フレームワークであるSCoTTを提案する。 SCoTT は DP-WA* の2% 以内で経路ゲインを達成し, 連続的に短い軌道を生成できることを示す。また,ガゼボシミュレーションにおいて,SCoTTをROSノードとして配置することにより,本手法の実用性を示す。
論文参考訳（メタデータ） (2024-11-27T10:45:49Z)
Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文参考訳（メタデータ） (2024-07-08T12:52:46Z)
1st Place Solutions for RxR-Habitat Vision-and-Language Navigation Competition (CVPR 2022) [28.5740809300599]
連続環境における視覚・言語ナビゲーション(VLN-CE)問題に対するモジュール型計画・制御手法を提案する。提案モデルは,候補経路予測器(CWP),履歴拡張プランナー,試行制御器の3つのモジュールから構成される。我々のモデルは2022年のRxR-Habitatコンペティションで優勝し、NDTWおよびSRメトリクスの既存手法に比べて48%と90%の相対的な改善があった。
論文参考訳（メタデータ） (2022-06-23T10:36:53Z)
Learning Forward Dynamics Model and Informed Trajectory Sampler for Safe Quadruped Navigation [1.2783783498844021]
典型的なSOTAシステムは、マッパー、グローバルプランナー、ローカルプランナー、コマンドトラッキングコントローラの4つの主要モジュールで構成されている。我々は,グローバルプランナから粗い計画経路を追跡するためのベロシティプランを生成するために,ロバストで安全なローカルプランナを構築している。この枠組みを用いることで、四足歩行ロボットは衝突なしに様々な複雑な環境を自律的に移動でき、ベースライン法と比較してスムーズなコマンドプランを生成することができる。
論文参考訳（メタデータ） (2022-04-19T04:01:44Z)
End-to-end Interpretable Neural Motion Planner [78.69295676456085]
複雑な都市環境での自律走行学習のためのニューラルモーションプランナー(NMP)を提案する。我々は,生lidarデータとhdマップを入力とし,解釈可能な中間表現を生成する全体モデルを設計した。北米のいくつかの都市で収集された実世界の運転データにおける我々のアプローチの有効性を実証する。
論文参考訳（メタデータ） (2021-01-17T14:16:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。