論文の概要: Robust Conformal CBF and CLF Controllers via Iterative Policy Updates
- arxiv url: http://arxiv.org/abs/2606.15366v1
- Date: Sat, 13 Jun 2026 16:03:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:33.46018
- Title: Robust Conformal CBF and CLF Controllers via Iterative Policy Updates
- Title(参考訳): 反復ポリシー更新によるロバスト整形CBFおよびCLFコントローラ
- Authors: Omid Mirzaeedodangeh, Eliot Shekhtman, Nikolai Matni, Lars Lindemann,
- Abstract要約: コンフォーマル予測(CP)は、学習力学モデルと真だが未知のシステムとの誤差の確率的境界を求めるために用いられる。
このようなCP境界は、ロバスト制御Lyapunov関数(CLF)と制御バリア関数(CBF)フレームワークに埋め込むことができる。
しかし, 閉ループ軌道分布間の分布シフトのため, 安定・安全保証は維持されない。
安定・安全保証を維持しつつ、堅牢なCLF/CBFポリシーを反復的に更新するエピソードフレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.455279488679523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conformal prediction (CP) has been used to obtain probabilistic bounds on the error between a learned dynamics model and the true but unknown system. Such CP bounds can then be embedded into robust control Lyapunov function (CLF) and control barrier function (CBF) frameworks. However, such an approach does not retain stability/safety guarantees because of the distribution shift between the closed-loop trajectory distribution under the deployed CLF/CBF policy and the trajectory distribution from which the CP bound and its guarantees were derived. To address this issue, we propose an episodic framework that iteratively updates the robust conformal CLF/CBF policy while maintaining stability/safety guarantees across episodes. We achieve this by (1) using adversarially robust conformal prediction, and (2) quantifying a distribution shift budget that allows us to control how much the model error can increase across policy updates. This distribution shift budget is derived via a closed-loop trajectory sensitivity analysis, yielding an implicit and an explicit update rule for the CP bound. We analyze convergence of our algorithm, which we demonstrate on three case studies. To the best of our knowledge, these are the first results that provide stability/safety guarantees for robust conformal CBF/CLF policies.
- Abstract(参考訳): コンフォーマル予測(CP)は、学習力学モデルと真だが未知のシステムとの誤差の確率的境界を求めるために用いられる。
このようなCP境界は、ロバスト制御Lyapunov関数(CLF)と制御バリア関数(CBF)フレームワークに埋め込むことができる。
しかし,CLF/CBFポリシの下での閉ループ軌道分布とCP境界とその保証が導出された軌道分布との分布シフトのため,安定性・安全保証は維持されない。
この問題に対処するため,各エピソードの安定性・安全性を確保しつつ,頑健なコンフォメーションCLF/CBFポリシーを反復的に更新するエピソードフレームワークを提案する。
本研究では,(1)逆向きに頑健なコンフォメーション予測を用いて,(2)政策更新全体にわたってモデルエラーがどれだけ増加するかを制御する分散シフト予算の定量化を行う。
この分布シフト予算は閉ループ軌道感度解析によって導出され、CP境界に対する暗黙的かつ明示的な更新規則が得られる。
我々はアルゴリズムの収束性を分析し、3つのケーススタディで実証する。
我々の知る限り、これらは堅牢なCBF/CLFポリシーに対する安定性と安全性の保証を提供する最初の結果である。
関連論文リスト
- Predicted-Flow Control Barrier Functions for Real-Time Safe Optimal Control [0.0]
制御障壁関数(CBF)は、状態のポイントワイズ条件を通じてリアルタイムの安全保証を提供する。
本稿では,予測フロー制御バリア関数(P-CBF)を紹介する。
安全のために、P-CBFは予測フローが予測水平線全体にわたって安全なセットにあることを証明できる。
論文 参考訳(メタデータ) (2026-05-29T19:27:24Z) - Ratio-Variance Regularized Policy Optimization [64.95520246570446]
ポリシ比の分散を明示的に制約することは、信頼領域の制約に対する原則的な局所近似をもたらすことを示す。
本稿では,この制約を実装したR2bf VPO$(Ratio-Variance Regularized Policy Optimization)を紹介する。
論文 参考訳(メタデータ) (2026-05-26T09:53:42Z) - MPC as a Copilot: A Predictive Filter Framework with Safety and Stability Guarantees [6.019901994880397]
本稿では,単一アーキテクチャにおける制約満足度と安定性を保証する統一型予測フィルタフレームワークである予測安全安定フィルタ(PS2F)を紹介する。
PS2Fフレームワークは、2つのカスケードされた最適制御問題から成り、コピロットとしてのみ機能する名目モデル予測制御(MPC)層と、確実に安全で安定した領域に留まるように外部コマンドを調整する二次フィルタリング層とから構成される。
論文 参考訳(メタデータ) (2026-03-29T22:17:39Z) - BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning [49.25750348525603]
BandPOは、信頼領域を動的で確率対応のクリッピング間隔に投影する統一理論演算子であるBandに取って代わる。
BandPOはカノニカルクリッピングやClip-Higherより一貫して優れ,エントロピー崩壊の軽減が図られている。
論文 参考訳(メタデータ) (2026-03-05T08:03:05Z) - Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning [49.92803982100042]
我々は,現在の政策と過去の政策のエントロピー比を新たなグローバル指標として用いることを提案する。
エントロピー比に双方向の制約を課すtextbfEntropy Ratio (ERC) 機構を導入する。
これは、グローバルな分布レベルでの政策更新を安定化させ、未サンプリングアクションの確率シフトを規制するPPOクリップの不能を補償する。
論文 参考訳(メタデータ) (2025-12-05T10:26:32Z) - Conformal Prediction in The Loop: A Feedback-Based Uncertainty Model for Trajectory Optimization [3.761729592527251]
コンフォーマル予測(CP)は、カバレッジ保証を備えた不確実性セットを構築するための強力な統計機械学習ツールである。
本稿では,リスク制約を伴ってThorizonを縮小する新しいフィードバックベースCP(Fb-CP)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-18T07:11:23Z) - Wasserstein Distributionally Robust Control Barrier Function using
Conditional Value-at-Risk with Differentiable Convex Programming [4.825619788907192]
制御バリア関数 (CBF) は、現実世界の安全クリティカルシステムのための安全なコントローラの設計に広く注目を集めている。
分布変化下でのレジリエンスを達成するために, 分散ロバストCBFを提案する。
また、高次システムに対するDR-CBFの近似変種も提供する。
論文 参考訳(メタデータ) (2023-09-15T18:45:09Z) - Safe Neural Control for Non-Affine Control Systems with Differentiable
Control Barrier Functions [58.19198103790931]
本稿では,非アフィン制御系における安全クリティカル制御の問題に対処する。
制御バリア関数(CBF)を用いて,状態制約と制御制約の2次コストの最適化を2次プログラムのシーケンス(QP)にサブ最適化できることが示されている。
我々は,高次CBFをニューラル常微分方程式に基づく学習モデルに差分CBFとして組み込んで,非アフィン制御系の安全性を保証する。
論文 参考訳(メタデータ) (2023-09-06T05:35:48Z) - Pointwise Feasibility of Gaussian Process-based Safety-Critical Control
under Model Uncertainty [77.18483084440182]
制御バリア関数(CBF)と制御リアプノフ関数(CLF)は、制御システムの安全性と安定性をそれぞれ強化するための一般的なツールである。
本稿では, CBF と CLF を用いた安全クリティカルコントローラにおいて, モデル不確実性に対処するためのガウスプロセス(GP)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-13T23:08:49Z) - Reinforcement Learning for Safety-Critical Control under Model
Uncertainty, using Control Lyapunov Functions and Control Barrier Functions [96.63967125746747]
強化学習フレームワークは、CBFおよびCLF制約に存在するモデル不確実性を学ぶ。
RL-CBF-CLF-QPは、安全制約におけるモデル不確実性の問題に対処する。
論文 参考訳(メタデータ) (2020-04-16T10:51:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。