Fugu-MT 論文翻訳(概要): Path Planning Using Deep Deterministic Policy Gradient: A Reinforcement Learning Approach

論文の概要: Path Planning Using Deep Deterministic Policy Gradient: A Reinforcement Learning Approach

arxiv url: http://arxiv.org/abs/2606.07855v1
Date: Fri, 05 Jun 2026 21:35:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:05.487655
Title: Path Planning Using Deep Deterministic Policy Gradient: A Reinforcement Learning Approach
Title（参考訳）: Deep Deterministic Policy Gradientを用いたパスプランニング:強化学習アプローチ
Authors: Qiang Le, Yaguang Yang, Isaac E. Weintraub,
Abstract要約: 脅威に満ちた環境での自動運転車のパスプランニングは、根本的な課題である。我々は,Deep Deterministic Policy Gradient(DDPG)に基づく手法を提案する。 DDPGは、目的地への最も大きな経路を見つけるためにインセンティブを使用してエージェントを訓練する。
参考スコア（独自算出の注目度）: 0.3823356975862005
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Path-planning for autonomous vehicles in threat-laden environments is a fundamental challenge because the problem is nonlinear and nonconvex even in simplest scenarios. While traditional optimal control methods can be used to find ideal paths, the computational time is often too slow for real-time decision-making. To solve this challenge, we propose a method based on Deep Deterministic Policy Gradient (DDPG) and model the threat as possibly multiple circular 'no-go' zones. A mission is regarded as a failure if the vehicle enters this restricted zone at any time or does not reach a neighborhood of the destination. The DDPG agent is trained through trial and error in a simulated environment, learning a direct mapping from its current state (position and heading) to a series of feasible actions that guide the agent to safely reach its destination. The reword function has three parts: (a) an attractive field centered at the final destination, (b) some repulsive fields centered at the origins of circular obstacles, and (c) a penalty of control energy consumption (the magnitude of heading change) that indirectly in favor for straight path. The DDPG trains the agent using these incentives to find the largest possible set of starting points wherein a safe path to the destination is guaranteed. This provides critical information for mission planning, showing beforehand whether a task is achievable from a given starting point, assisting pre-mission planning activities. The approach is validated in simulation. A comparison between the DDPG method and a traditional optimal control (pseudo-spectral) method is carried out. The results show that the learning-based agent produces effective paths while being significantly faster, making it a better fit for real-time applications.
Abstract（参考訳）: 脅威に晒された環境での自動運転車の経路計画は、最も単純なシナリオであっても非線形で非凸であるため、根本的な課題である。従来の最適制御法は理想的な経路を見つけるのに使えるが、計算時間はリアルタイムな意思決定には遅すぎることが多い。この課題を解決するために,Deep Deterministic Policy Gradient (DDPG) に基づく手法を提案し,その脅威を複数の円形の"no-go"ゾーンとしてモデル化する。ミッションは、車両がいつでもこの制限区域に入るか、目的地の近傍に到達しない場合、失敗と見なされる。 DDPGエージェントは、模擬環境で試行錯誤を通じて訓練され、その状態(位置と方向)からエージェントが目的地に安全に到達するように誘導する一連の実行可能なアクションへの直接マッピングを学ぶ。 reword 関数には3つの部分がある。 (a)最終目的地を中心とする魅力的なフィールド (b)円障害物の起点を中心とする反動場及び (c)直進路に間接的に有利な制御エネルギー消費(方向転換の大きさ)の罰。 DDPGは、これらのインセンティブを使用してエージェントを訓練し、目的地への安全な経路が保証されている最大の出発点を見つける。これは、ミッション計画において重要な情報を提供し、事前に、タスクが所定の出発点から達成可能かどうかを示し、プレミッション計画活動を支援する。この手法はシミュレーションで検証されている。 DDPG法と従来の最適制御法(擬スペクトル法)との比較を行った。その結果,学習ベースエージェントは極めて高速でありながら効果的な経路を生成できることが示され,リアルタイムアプリケーションに適していることがわかった。

関連論文リスト

A Comparison of Reinforcement Learning and Optimal Control Methods for Path Planning [0.3823356975862005]
脅威に満ちた環境での自動運転車のパスプランニングは、根本的な課題である。本稿では,Deep Deterministic Policy Gradient (DDPG) に基づく手法を提案する。ミッション失敗は、車両がいつでもこのノーゴーゾーンに入るか、目的地の近傍に到達しない場合である。
論文参考訳（メタデータ） (2026-04-14T11:55:15Z)
Trust Region Constrained Measure Transport in Path Space for Stochastic Optimal Control and Inference [49.11857020431547]
信頼領域に基づく戦略は,対象尺度の先行から幾何的アニーリングと解釈できることを示す。我々は,新しい手法が性能を大幅に向上させることができることを,複数の最適制御応用で実証した。
論文参考訳（メタデータ） (2025-08-17T22:10:35Z)
Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling [74.41886258801209]
本稿では,行動学習から原理的アライメントを分離する2段階の軌道計画フレームワークを提案する。 Plan-R1は計画の安全性と実現可能性を大幅に改善し、最先端の性能を達成する。
論文参考訳（メタデータ） (2025-05-23T09:22:19Z)
Centaur: Robust End-to-End Autonomous Driving with Test-Time Training [84.78837437133234]
我々は,手作業によるルールやコスト関数に頼ることなく,テストタイムトレーニングを通じてプランナーの行動を更新するCentaurを提案する。本稿では,クラスタ・エントロピー(Cluster Entropy,クラスタ・エントロピー)と呼ばれる新しい不確実性尺度を開発した。
論文参考訳（メタデータ） (2025-03-14T17:59:41Z)
RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning [54.52545900359868]
3DGSをベースとしたエンドツーエンド自動運転のためのクローズドループ強化学習フレームワークRADを提案する。安全性を高めるため、我々は、安全クリティカルな事象に効果的に対応し、現実世界の因果関係を理解するために、政策の指針となる特別報酬を設計する。 IL法と比較して、RADは閉ループのほとんどの測定値において、特に3倍の衝突速度を示す。
論文参考訳（メタデータ） (2025-02-18T18:59:21Z)
Model Checking for Closed-Loop Robot Reactive Planning [0.0]
モデル検査を用いて、ディファレンシャルドライブホイールロボットの多段階計画を作成することにより、即時危険を回避できることを示す。簡単な生物エージェントのエゴセントリックな反応を反映した,小型で汎用的なモデル検査アルゴリズムを用いて,リアルタイムで計画を生成する。
論文参考訳（メタデータ） (2023-11-16T11:02:29Z)
Motion Planning for Autonomous Vehicles in the Presence of Uncertainty Using Reinforcement Learning [0.0]
不確実性の下での運動計画は、自動運転車の開発における主要な課題の1つである。最悪の事例を最適化して不確実性を管理するための強化学習に基づくソリューションを提案する。提案手法は従来のRLアルゴリズムよりもはるかに優れた動作計画行動を示し,人間の運転スタイルと相容れない動作を示す。
論文参考訳（メタデータ） (2021-10-01T20:32:25Z)
Multi-Agent Path Planning based on MPC and DDPG [14.793341914236166]
モデル予測制御(MPC)とDeep Deterministic Policy Gradient(DDPG)を組み合わせた新しいアルゴリズムを提案する。 ddpg with continuous action spaceは、ロボットに学習と自律的な意思決定機能を提供するように設計されている。航空母艦デッキや四角形などの不確定な環境でのシミュレーション実験にunity 3dを用いる。
論文参考訳（メタデータ） (2021-02-26T02:57:13Z)
Reinforcement Learning for Low-Thrust Trajectory Design of Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。最先端アルゴリズムのオープンソース実装が採用されている。その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文参考訳（メタデータ） (2020-08-19T15:22:15Z)
The Importance of Prior Knowledge in Precise Multimodal Prediction [71.74884391209955]
道路にはよく定義された地形、地形、交通規則がある。本稿では,構造的事前を損失関数として組み込むことを提案する。実世界の自動運転データセットにおけるアプローチの有効性を実証する。
論文参考訳（メタデータ） (2020-06-04T03:56:11Z)
Integrating Deep Reinforcement Learning with Model-based Path Planners for Automated Driving [0.0]
本稿では、経路計画管を視覚ベースのDRLフレームワークに統合するためのハイブリッドアプローチを提案する。要約すると、DRLエージェントは、パスプランナーのウェイポイントをできるだけ近くに追従するように訓練される。実験の結果,提案手法は経路を計画し,ランダムに選択した起点-終点間を移動可能であることがわかった。
論文参考訳（メタデータ） (2020-02-02T17:10:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。