論文の概要: Learning Predictive Control with Deep Koopman Operators for Autonomous Vehicle Motion Planning
- arxiv url: http://arxiv.org/abs/2606.08136v1
- Date: Sat, 06 Jun 2026 12:26:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.867206
- Title: Learning Predictive Control with Deep Koopman Operators for Autonomous Vehicle Motion Planning
- Title(参考訳): 自律走行計画のためのディープクープマン演算子による予測制御の学習
- Authors: Xinglong Zhang, Yongqian Xiao, Haotian Cao, Xing Zhou, Xin Yin, Xin Xu,
- Abstract要約: モデル予測制御(MPC)は自律走行車(AV)運動計画に広く用いられているが、リアルタイム適用性は限られている。
Actor-criticは動的道路環境における非線形学習問題に対するオンラインソリューションを提供する。
本稿では、効率的なリアルタイム動作制御のためのディープ・クープマン演算子を用いたフレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.149068950974113
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Model Predictive Control (MPC) is widely used for autonomous-vehicle (AV) motion planning, but its real-time applicability is often limited by the need for accurate models and online solution of nonlinear, nonconvex optimization problems in dynamic road environments. Actor-critic reinforcement learning offers a promising alternative for online policy generation, yet its policy-learning process often lacks explicit control-theoretic structure. This article proposes a learning predictive control (LPC) framework with deep Koopman operators for efficient real-time motion planning under nonconvex constraints. To address nonlinear and uncertain vehicle dynamics, a deep-Koopman-based predictor is used to lift the system into an interpretable linear observable space in a data-driven manner. Unlike traditional MPC, which computes open-loop control sequences, the proposed LPC framework yields a closed-loop state-feedback policy within each prediction interval through receding-horizon actor-critic learning. To ensure safety under nonconvex environmental constraints, LPC constructs convex local surrogate representations of obstacles and defines corresponding potential-field functions. These functions and their gradients are directly embedded into the actor-critic structure, enabling efficient, safety-aware policy learning. Extensive simulations and real-world experiments on the HongQi-EHS3 platform demonstrate favorable performance in diverse obstacle-avoidance scenarios in terms of safety, computational efficiency, and driving comfort, compared with benchmark methods such as CBF-MPC and LMPCC.
- Abstract(参考訳): モデル予測制御(MPC)は、自律走行車(AV)運動計画に広く用いられているが、そのリアルタイム適用性は、動的道路環境における非線形非凸最適化問題の正確なモデルとオンラインソリューションの必要性によって制限されることが多い。
アクター批判強化学習は、オンラインポリシー生成に有望な代替手段を提供するが、そのポリシー学習プロセスは、明示的な制御理論構造を欠いていることが多い。
本稿では,非凸制約下での効率的なリアルタイム動作計画のための深層クープマン演算子を用いた学習予測制御(LPC)フレームワークを提案する。
非線形かつ不確実な車両力学に対処するために、ディープ・クープマンに基づく予測器を用いて、データを駆動的に解釈可能な線形可観測空間へ持ち上げる。
オープンループ制御シーケンスを演算する従来のMPCとは異なり、提案したLPCフレームワークは、後退水平アクター批判学習を通じて、各予測間隔内でクローズドループ状態フィードバックポリシーを生成する。
非凸環境制約下での安全性を確保するため、LPCは障害物の凸局所代理表現を構築し、対応するポテンシャル場関数を定義する。
これらの関数とその勾配はアクター批判構造に直接埋め込まれ、効率的で安全に配慮したポリシー学習を可能にする。
CBF-MPC や LMPCC などのベンチマーク手法と比較して,HongQi-EHS3 プラットフォーム上での大規模なシミュレーションと実世界の実験は,安全性,計算効率,運転快適性の観点から様々な障害物回避シナリオにおいて良好な性能を示した。
関連論文リスト
- Towards Safe Learning-Based Non-Linear Model Predictive Control through Recurrent Neural Network Modeling [7.815370784443825]
予測地平線上でパラメータを共有することで,MPC候補制御シーケンスを生成する逐次的ニューラルポリシーであるSequential-AMPCを提案する。
いくつかのベンチマークにおける単純なフィードフォワードポリシーベースラインと比較すると、Sequential-AMPCは専門家のMPCロールアウトをかなり少なくし、高い実行可能性率で候補シーケンスを出力し、クローズドループ安全性を改善している。
高次元システムでは、フィードフォワードベースラインが停滞する安定した検証改善を維持しながら、より少ないエポックでより優れた学習ダイナミクスと性能を示す。
論文 参考訳(メタデータ) (2026-03-25T16:43:11Z) - Composable Model-Free RL for Navigation with Input-Affine Systems [3.2917282915992883]
自律型ロボットが複雑でダイナミックな現実世界の環境に移動するとき、彼らはリアルタイムで安全にナビゲートすることを学ぶ必要がある。
本研究では,各環境要素の値関数と最適ポリシーを学習する構成可能なモデルフリー強化学習手法を提案する。
論文 参考訳(メタデータ) (2026-02-13T00:19:35Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - Custom Non-Linear Model Predictive Control for Obstacle Avoidance in Indoor and Outdoor Environments [0.0]
本稿では,DJI行列100のための非線形モデル予測制御(NMPC)フレームワークを提案する。
このフレームワークは様々なトラジェクトリタイプをサポートし、厳密な操作の精度を制御するためにペナルティベースのコスト関数を採用している。
論文 参考訳(メタデータ) (2024-10-03T17:50:19Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Model-Based Safe Reinforcement Learning with Time-Varying State and
Control Constraints: An Application to Intelligent Vehicles [13.40143623056186]
本稿では、時間変化状態と制御制約を持つ非線形システムの最適制御のための安全なRLアルゴリズムを提案する。
多段階の政策評価機構が提案され、時間変化による安全制約の下での政策の安全性リスクを予測し、安全更新を誘導する。
提案アルゴリズムは、シミュレーションされたセーフティガイム環境において、最先端のRLアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2021-12-18T10:45:31Z) - Imitation Learning for Robust and Safe Real-time Motion Planning: A
Contraction Theory Approach [9.35511513240868]
LAG-ROSは、境界外乱によって乱される安全臨界非線形システムのリアルタイムロバストな動作計画アルゴリズムである。
LAG-ROSはリアルタイム計算のためのより速い実行の速度のより高い制御性能そしてタスクの成功率を達成します。
論文 参考訳(メタデータ) (2021-02-25T03:47:15Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Learning Control Barrier Functions from Expert Demonstrations [69.23675822701357]
制御障壁関数(CBF)に基づく安全な制御器合成のための学習に基づくアプローチを提案する。
最適化に基づくCBFの学習手法を解析し、基礎となる力学系のリプシッツ仮定の下で証明可能な安全保証を享受する。
私たちの知る限りでは、これらはデータから確実に安全な制御障壁関数を学習する最初の結果です。
論文 参考訳(メタデータ) (2020-04-07T12:29:06Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。