論文の概要: Zero-shot Transfer of Reinforcement Learning Control Policies for the Swing-Up and Stabilization of a Cart-Pole System
- arxiv url: http://arxiv.org/abs/2606.22145v1
- Date: Sat, 20 Jun 2026 16:54:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 22:34:04.476736
- Title: Zero-shot Transfer of Reinforcement Learning Control Policies for the Swing-Up and Stabilization of a Cart-Pole System
- Title(参考訳): ストーミングアップのための強化学習制御のゼロショット移動とカートポールシステムの安定化
- Authors: Nikki Xu, Hien Tran,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、コントローラ設計を近代化するための強力なツールである。
シミュレーションからハードウェアへのRL制御ポリシのゼロショット転送を,カートポールの立ち上がりと安定化のために検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is a powerful and convenient tool to modernize controller design. In this work, we study the zero-shot transfer of RL-based control policies from simulation to hardware for cart-pole swing-up and stabilization. The two policies are trained independently, and the handoff is implemented in Simulink via switching logic. We apply a first-order action smoothing filter to prevent hardware damage from high-frequency oscillatory actuation. Pairing this bandwidth-aware filtering with sensitivity-guided domain randomization (DR) and a simple linear curriculum learning (CL) schedule, we obtain a swing-up policy that in all of our experiments injects sufficient energy for handoff into the stabilizer's region of attraction. The stabilization policy rejects disturbances within the tested range, and the swing-up policy can re-engage after larger perturbations and restores the pendulum to the inverted position.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、コントローラ設計を近代化するための強力で便利なツールである。
本研究では,RLに基づく制御ポリシをシミュレーションからハードウェアへゼロショット転送することで,カートポールの起動と安定化について検討する。
2つのポリシーは独立して訓練され、ハンドオフはスイッチングロジックを介してSimulinkで実装される。
本研究では,高周波発振動作によるハードウェア損傷を防止するために,第1次動作平滑化フィルタを適用した。
感度誘導型領域ランダム化(DR)と単純な線形カリキュラム学習(CL)スケジュールを併用したこの帯域幅対応フィルタリングにより,本実験のすべてにおいて,安定化器のアトラクション領域へのハンドオフに十分なエネルギーを注入する,スイングアップポリシが得られた。
安定化ポリシーは、試験範囲内の乱れを拒絶し、より大きな摂動の後、スイングアップポリシーは再侵入し、振り子を逆位置に戻せる。
関連論文リスト
- Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning [50.738952715864116]
表現的連続制御ポリシは、シミュレーションされた実ロボット制御のための模倣学習のスケーリングにおける進歩のバックボーンを形成する。
テスト時に完全にポリシー最適化を行うRLアルゴリズムであるQGF(Q-Guided Flow)を提案する。
実証的には、QGFはシングルタスクおよびゴール条件のオフラインRLベンチマークにおいて、以前のテスト時間RLメソッドよりも優れている。
論文 参考訳(メタデータ) (2026-06-09T16:45:57Z) - Adaptive Outer-Loop Control of Quadrotors via Reinforcement Learning [7.213232880886576]
本研究では,新しい適応制御アーキテクチャを提案する。
まず、最適な外ループポリシーをトレーニングし、その後、地平線データへの依存をResidual Dynamics Predictorに置き換える。
データ効率のよい線形キャリブレーションブリッジとオンライン推力補正機構を導入する。
論文 参考訳(メタデータ) (2026-05-15T14:49:58Z) - Efficiently Learning Robust Torque-based Locomotion Through Reinforcement with Model-Based Supervision [14.246416873754905]
モデルに基づく二足歩行と残留強化学習を統合した制御フレームワークを提案する。
提案手法は, ランダム化条件におけるロバスト性の向上と一般化を実証する。
論文 参考訳(メタデータ) (2026-01-22T16:56:52Z) - Double Check My Desired Return: Transformer with Target Alignment for Offline Reinforcement Learning [64.6334337560557]
教師付き学習(RvS)による強化学習は、シーケンスモデリングタスクとしてオフラインRLをフレーム化する。
決定変換器(DT)は、実際の完了したリターンを特定のターゲットリターンと確実に整合させるのに苦労する。
そこで我々は,Offline RLの目標アライメントによる変換器の二重チェックを行う新しいアプローチであるDoctorを提案する。
論文 参考訳(メタデータ) (2025-08-22T14:30:53Z) - Deployable Reinforcement Learning with Variable Control Rate [14.838483990647697]
可変制御率を持つ強化学習(RL)の変種を提案する。
このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。
ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
論文 参考訳(メタデータ) (2024-01-17T15:40:11Z) - Thompson Sampling Achieves $\tilde O(\sqrt{T})$ Regret in Linear
Quadratic Control [85.22735611954694]
我々はトンプソンサンプリング(TS)を用いた安定化可能な線形四元系レギュレータ(LQR)の適応制御問題について検討する。
我々は,LQRの適応制御のための効率的なTSアルゴリズムTSACを提案し,多次元システムであっても,$tilde O(sqrtT)$ regretを実現する。
論文 参考訳(メタデータ) (2022-06-17T02:47:53Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Learning Stabilizing Controllers for Unstable Linear Quadratic
Regulators from a Single Trajectory [85.29718245299341]
線形2次制御器(LQR)としても知られる2次コストモデルの下で線形制御器を研究する。
楕円形不確実性集合内の全ての系を安定化させる制御器を構成する2つの異なる半定値プログラム(SDP)を提案する。
高い確率で安定化コントローラを迅速に識別できる効率的なデータ依存アルゴリズムであるtextsceXplorationを提案する。
論文 参考訳(メタデータ) (2020-06-19T08:58:57Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。