論文の概要: ParkingTransformer: LLM-Enhanced End-to-End Trajectory Planning for Autonomous Parking
- arxiv url: http://arxiv.org/abs/2606.17082v1
- Date: Fri, 12 Jun 2026 05:52:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.042
- Title: ParkingTransformer: LLM-Enhanced End-to-End Trajectory Planning for Autonomous Parking
- Title(参考訳): パーキングトランス:LLMによる自動パーキングのためのエンド・ツー・エンド軌道計画
- Authors: Hauteng Wu, Xu Li, Dong Kong, Zihang Wang, Xieyuanli Chen, Benwu Wang, Wenkai Zhu,
- Abstract要約: ParkingTransformerは、多視点認識とLarge Language Models(LLM)のシーン理解能力を活用する新しいフレームワークである。
LLMの空間的推論能力の不足を補うために,空間幾何学的認識を明示的に注入する3次元位置符号化を導入する。
CARLAシミュレータにおける駆動スコアは61.32であり、実世界の実験では平均成功率は88.70%である。
- 参考スコア(独自算出の注目度): 13.901233386612722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end autonomous parking has emerged as a critical task within the realm of autonomous driving. However, existing methods suffer from black-box characteristics, lacking high-level semantic understanding and interpretability, which impedes the realization of seamless long-distance autonomous parking from the road to the target spot. To address these limitations, we propose ParkingTransformer, a novel framework that leverages multi-view perception and the scene understanding capability of Large Language Models (LLMs). By combining trajectory queries with LLMs implicit state features, our method interacts directly with historical information and raw sensor data to output planning trajectories, eliminating the need for dense Bird's-View (BEV) representations. To compensate for the inadequate spatial reasoning ability of LLMs, we introduce 3D positional encoding to explicitly inject spatial geometric awareness. Furthermore, a fixed-window streaming mechanism is designed for historical information processing, significantly improving long-term temporal processing efficiency and inference speed. Additionally, a coarse-to-fine decoding strategy is employed to progressively enhance trajectory precision. Extensive closed-loop experiments are conducted on the CARLA simulator and real-world vehicle platforms. The results demonstrate that our method achieves a driving score of 61.32 in CARLA simulator and an average success rate of 88.70% in real-world experiments, validating the feasibility and effectiveness of the proposed algorithms.
- Abstract(参考訳): エンドツーエンドの自律駐車は、自動運転の領域において重要な課題として浮上している。
しかし、既存の手法はブラックボックスの特徴に悩まされており、高レベルの意味理解と解釈性が欠如しており、道路から目標地点へのシームレスな長距離自律駐車の実現を妨げている。
このような制約に対処するために,多視点認識とLarge Language Models (LLM) のシーン理解機能を活用した新しいフレームワークであるParkingTransformerを提案する。
トラジェクトリクエリとLLMの暗黙的状態特徴を組み合わせることで、過去の情報や生センサデータと直接対話して計画トラジェクトリを出力し、密度の高いBird's-View(BEV)表現を不要にする。
LLMの空間的推論能力の不足を補うために,空間幾何学的認識を明示的に注入する3次元位置符号化を導入する。
さらに、歴史的情報処理のための固定ウィンドウストリーミング機構を設計し、長期の時間的処理効率と推論速度を大幅に改善する。
さらに、軌跡精度を漸進的に向上させるため、粗大な復号戦略が採用されている。
CARLAシミュレータと現実世界の車両プラットフォームで大規模なクローズドループ実験が行われた。
その結果,CARLAシミュレータにおける運転スコア61.32,実環境実験における平均成功率88.70%を達成し,提案アルゴリズムの有効性と有効性を検証した。
関連論文リスト
- SunnyParking: Multi-Shot Trajectory Generation and Motion State Awareness for Human-like Parking [24.480545421791234]
本研究では,空間軌跡と離散的な動き状態列を共同で予測することで,動き状態認識を実現する2重分岐E2Eアーキテクチャを提案する。
実験により, 複雑なマルチショット駐車シナリオにおいて, より頑健で人間的な軌道を生成することが実証された。
我々はCARLAシミュレータの新しいパーキングデータセットをオープンソース化した。
論文 参考訳(メタデータ) (2026-02-25T08:35:58Z) - LLM-Driven Scenario-Aware Planning for Autonomous Driving [35.75515733294211]
自動運転のためのハイブリッドプランナー切替フレームワーク(HPSF)は、高密度交通の安全な操作で高速運転効率を調整する必要がある。
既存のHPSF法は、しばしば、信頼性の高いモード遷移や、混雑した環境での効率的な運転を維持できない。
本稿では,低複雑シーンにおける高速運転と高複雑シーンにおける高精度運転を切り替える,大規模言語モデル(LLM)による適応計画手法を提案する。
論文 参考訳(メタデータ) (2026-01-29T15:42:13Z) - A Vision-Language-Action Model with Visual Prompt for OFF-Road Autonomous Driving [14.778856339414455]
オフロード地形における効率的な軌道計画は、自動運転車にとって非常に困難な課題である。
本稿では,空間認識の不十分さと不安定な推論を克服する,新しいエンドツーエンドマルチモーダルフレームワークOF-EMMAを提案する。
RELLIS-3Dオフロードデータセットの実験結果から、OF-EMMAは既存の手法よりもかなり優れていることが示された。
論文 参考訳(メタデータ) (2026-01-07T02:08:18Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - Tracking Meets Large Multimodal Models for Driving Scenario Understanding [76.71815464110153]
大規模マルチモーダルモデル(LMM)は、最近自動運転研究で注目されている。
本稿では3次元の空間的・時間的詳細を復元するための追加入力として追跡情報を統合することを提案する。
本稿では,この追跡情報をLMMに埋め込んで,運転シナリオの理解を深めるための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-18T17:59:12Z) - RAD: Retrieval-Augmented Decision-Making of Meta-Actions with Vision-Language Models in Autonomous Driving [10.984203470464687]
視覚言語モデル(VLM)は、空間認識の不十分さや幻覚といった限界に悩まされることが多い。
本稿では,自律走行シーンにおけるメタアクションを確実に生成するVLMの能力を高めるための,検索強化意思決定(RAD)フレームワークを提案する。
我々は,NuScenesデータセットから得られたデータセットに基づいてVLMを微調整し,その空間的知覚と鳥眼視画像理解能力を高める。
論文 参考訳(メタデータ) (2025-03-18T03:25:57Z) - BEVDriver: Leveraging BEV Maps in LLMs for Robust Closed-Loop Driving [0.5735035463793009]
大規模言語モデル(LLM)には推論能力と自然言語理解がある。
CARLAにおける終端閉ループ駆動のためのLLMモデルであるBEVDriverを紹介する。
LangAutoベンチマークでは、私たちのモデルはSoTAの手法と比較して、ドライビングスコアで最大18.9%高いパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-03-05T00:27:32Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - LLM-A*: Large Language Model Enhanced Incremental Heuristic Search on Path Planning [91.95362946266577]
経路計画はロボット工学と自律航法における基本的な科学的問題である。
A*やその変種のような伝統的なアルゴリズムは、パスの妥当性を保証することができるが、状態空間が大きくなるにつれて、計算とメモリの非効率が著しく低下する。
本稿では, A* の正確なパスフィニング能力と LLM のグローバルな推論能力とを相乗的に組み合わせた LLM ベースの経路計画法を提案する。
このハイブリッドアプローチは、特に大規模シナリオにおいて、パス妥当性の完全性を維持しながら、時間と空間の複雑さの観点からパスフィニング効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-06-20T01:24:30Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。