論文の概要: Distribution-Agnostic Robust Trajectory Optimization via Chance-Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.13605v1
- Date: Thu, 11 Jun 2026 17:22:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.947007
- Title: Distribution-Agnostic Robust Trajectory Optimization via Chance-Constrained Reinforcement Learning
- Title(参考訳): 時間制約強化学習による分布非依存ロバスト軌道最適化
- Authors: Yashdeep Chaudhary, Roberto Armellin, Harry Holt, Marco Sagliano,
- Abstract要約: 本稿では,確率制約付き強化学習に基づく分布に依存しない頑健な軌道最適化フレームワークを提案する。
このフレームワークは、2つの実質的な異なる軌道設計問題に基づいて評価される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a distribution-agnostic robust trajectory-optimization framework based on chance-constrained reinforcement learning. The uncertainty is represented here through initial conditions and process noise, with the only requirement being that it can be sampled. A deterministic nominal trajectory is first computed offline, and reinforcement learning is then used only to robustify that baseline through a structured affine closed-loop correction law comprising a feedforward control adjustment and time-varying feedback gains. Probabilistic feasibility is enforced empirically through rollout-based upper-tail quantiles, while terminal dispersion is regulated through covariance-feasibility penalties. The framework is assessed on two materially different trajectory design problems. The flagship case study is a three-dimensional multi-impulse Earth-Mars transfer, where the learned policy is benchmarked against a recent robust trajectory-optimization reference under Gaussian uncertainty and then evaluated under bounded uniform uncertainty and under process disturbances not seen during training. The second case study is a stochastic atmospheric pinpoint rocket landing problem, used to assess portability to a short-horizon continuous-thrust setting with drag, mass depletion, and glide-slope constraints. The results show that the proposed framework can remain competitive in upper-tail fuel cost while preserving probabilistic feasibility, and that the same robustification scaffold can be carried across heterogeneous spacecraft trajectory planning problems without redesign of its core stochastic-control structure.
- Abstract(参考訳): 本稿では,確率制約付き強化学習に基づく分布に依存しない頑健な軌道最適化フレームワークを提案する。
この不確実性は、初期条件とプロセスノイズによって表現され、唯一の要件はサンプル化可能であることである。
まず、決定論的名目軌道をオフラインで計算し、その後、フィードフォワード制御調整と時間変化フィードバックゲインを含む構造化アフィン閉ループ補正法により、ベースラインを堅牢化するためにのみ強化学習を使用する。
確率的実現可能性(probabilistic feasibility)はロールアウトに基づく上尾量子化(super-tail Quantiles)によって実証的に実施され、終端分散は共分散可能性ペナルティ(covariance-feasibility penalties)によって規制される。
このフレームワークは、2つの実質的な異なる軌道設計問題に基づいて評価される。
フラッグシップケーススタディは、3次元のマルチインパルス地球-火星移動であり、ガウスの不確実性の下での最近の頑健な軌道最適化基準に対して学習ポリシーをベンチマークし、その上で、一様不確実性と訓練中に見られないプロセス障害の下で評価する。
第2のケーススタディは、確率的大気ピンポイントロケット着陸問題であり、ドラッグ、質量減少、滑空斜面の制約を伴う短水平連続スラスト設定への可搬性を評価するために使用される。
提案手法は, 確率的実現性を維持しつつ, 上尾部燃料コストで競争力を維持することが可能であり, また, コアの確率制御構造を再設計することなく, 異種宇宙船軌道計画問題に対して, 同じロバスト化足場を適用できることが示唆された。
関連論文リスト
- Clipping Bottleneck: Stabilizing RLVR via Stochastic Recovery of Near-Boundary Signals [83.0127582612634]
Near-boundary Rescue (NSR) は最小限のプラグ・アンド・プレイの修正であり、失った信号を回復するために、アウト・オブ・バウンドトークンを保持する。
NSRはトレーニングの安定性を大幅に改善し、DAPOやGSPOといった強力なベースライン上で一貫したゲインを提供する。
論文 参考訳(メタデータ) (2026-05-21T16:45:31Z) - Anticipatory Reinforcement Learning: From Generative Path-Laws to Distributional Value Functions [0.0]
本稿では,非マルコフ決定プロセスと古典的強化学習アーキテクチャのギャップを埋める新しいフレームワークである予測強化学習(ARL)を紹介する。
ジャンプ拡散と構造破壊によって特徴づけられる環境では、伝統的な状態に基づく手法は、正確なフォアフォアフォアフォアフォアフォアフォアフォアフォアフォアフォアフォアフォアフォアフォアフォアフォアフォアフォアフォアフォアフォアホアホアホアホアホアホアホアホアホアホアホアホアホアホアホアホアホアホアホアホアホアホアホアホアホアホアホアホアホ
論文 参考訳(メタデータ) (2026-04-06T13:15:44Z) - Probabilistic Geometric Alignment via Bayesian Latent Transport for Domain-Adaptive Foundation Models [0.0]
大規模なファンデーションモデルを、監督が限定された新しいドメインに適応させることは、依然として根本的な課題である。
本稿では、幾何学的アライメント問題としてドメイン適応を定式化する不確実性を考慮した確率的潜在輸送フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-24T23:35:08Z) - Statistical Contraction for Chance-Constrained Trajectory Optimization of Non-Gaussian Stochastic Systems [0.0]
このフレームワークは共形推論を用いて任意の参照軌跡を囲む閉ループ力学に対する信頼セットを生成する。
適切な制約の締め付けにより、基準軌跡上の統計的に妥当な決定論的制約をトラクタブルに修正することができる。
これにより、安全クリティカルな現実世界のアプリケーションにおいて、ニューラルネットワークメトリクスのような学習ベースのモーションプランナとコントローラを活用、検証するフォーマルなパスが可能になる。
論文 参考訳(メタデータ) (2026-03-07T08:01:20Z) - Binary Flow Matching: Prediction-Loss Space Alignment for Robust Learning [23.616336786063552]
フローマッチングは、生成モデリングの強力なフレームワークとして登場した。
速度に基づく目的と結合した場合に発生する潜在構造ミスマッチを同定する。
信号空間に対する目的の再調整が特異重み付けを排除していることを示す。
論文 参考訳(メタデータ) (2026-02-11T02:02:30Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。