論文の概要: Efficient Domain-Adaptive Policy Learning via Kernel Representation with Application to Quadrotor Control under Non-Stationary Disturbances
- arxiv url: http://arxiv.org/abs/2606.13842v1
- Date: Thu, 11 Jun 2026 19:16:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.598716
- Title: Efficient Domain-Adaptive Policy Learning via Kernel Representation with Application to Quadrotor Control under Non-Stationary Disturbances
- Title(参考訳): カーネル表現による効率的なドメイン適応型政策学習と非定常外乱下における擬ドロレータ制御への応用
- Authors: Hongyu Zhou, Mingtian Tan, Vasileios Tzoumas,
- Abstract要約: 本稿では,カーネル表現を用いた効率的なドメイン適応型ポリシー学習アルゴリズムを提案する。
ドメイン適応ポリシーの学習は、オフライントレーニング中に複雑なsim-to-realギャップをモデル化するのに十分な表現を必要とするため、難しい。
我々は,高忠実度数値シミュレーションとCrazyflieを用いたハードウェア実験による4軸トラジェクタ追跡タスクの評価を行った。
- 参考スコア(独自算出の注目度): 20.919848900411857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an algorithm for efficient domain-adaptive policy learning via kernel representations. Learning domain-adaptive policies is challenging since it requires an environment representation that is both sufficiently expressive to model complex sim-to-real gaps during offline training, and computationally efficient enough to support rapid online adaptation during deployment. For instance, a quadrotor may encounter time-varying, non-stationary disturbances, such as sudden gusts of wind, payload shifts, or transitions between distinct flight regimes with and without ground effects. To address these challenges, we model unknown disturbances using a differentiable kernel approximation based on random Fourier features. During the offline training phase, we randomly sample kernel coefficients and bandwidth parameters to generate a rich diversity of disturbance profiles. We then optimize the control policy via differentiable simulation with analytical gradients, a process that takes only 50 seconds of training time on an RTX 4090 GPU. During hardware deployment, the policy adapts to non-stationary environments in real time by updating both the kernel coefficients and bandwidth through online least-squares estimation. We evaluate our method on quadrotor trajectory tracking tasks across high-fidelity numerical simulations and hardware experiments using Crazyflie, subjected to various disturbances, including complex aerodynamic effects, wind, ground effects, and payload fluctuations.
- Abstract(参考訳): 本稿では,カーネル表現を用いた効率的なドメイン適応型ポリシー学習アルゴリズムを提案する。
ドメイン適応型ポリシの学習は、オフライントレーニング中に複雑なsim-to-realギャップをモデル化するのに十分な表現と、デプロイ中の迅速なオンライン適応をサポートするのに十分な計算効率の両方を必要とするため、難しい。
例えば、四重項機は風の急激な吹き出し、ペイロードシフト、地上効果のない異なる飛行状態間の遷移など、時間的に変化する非定常的な乱れに遭遇することがある。
これらの課題に対処するために、ランダムなフーリエ特徴に基づく微分可能なカーネル近似を用いて未知の乱をモデル化する。
オフライントレーニングフェーズでは、カーネル係数と帯域幅パラメータをランダムにサンプリングし、外乱プロファイルの豊富な多様性を生成する。
次に、RTX 4090 GPU上で50秒のトレーニング時間しかかからない分析勾配を用いた微分可能シミュレーションにより、制御ポリシーを最適化する。
ハードウェア展開中、このポリシーは、最小二乗推定によってカーネル係数と帯域幅の両方を更新することで、非定常環境にリアルタイムで適応する。
複素空力効果,風速,地盤効果,ペイロード変動など,様々な乱れにさらされたクレイジーフリーを用いた高忠実度数値シミュレーションおよびハードウェア実験による4軸トラジェクタ追跡タスクの評価を行った。
関連論文リスト
- MetaTune: Adjoint-based Meta-tuning via Robotic Differentiable Dynamics [7.048473553381187]
外乱オブザーバーに基づく制御は、不確実性に対するロボットシステムの堅牢化を約束している。
フィードバックコントローラと外乱オブザーバの協調的自動チューニングのための統合フレームワークであるMetaTuneを提案する。
本稿では,MetaTuneが最先端の微分可能なチューニング手法よりも一貫した改善を実現していることを示す。
論文 参考訳(メタデータ) (2026-03-28T15:37:39Z) - Gradient-Enhanced Partitioned Gaussian Processes for Real-Time Quadrotor Dynamics Modeling [3.0132217482597277]
本稿では,状態空間分割と近似によってリアルタイムな推論を実現する情報を持つ,ガウス過程(GP)について述べる。
ローターとローターの相互作用や風向などの空力効果を捉える訓練データセットを生成する。
このフレームワークは、複雑で不安定な環境でのリアルタイム空力予測と制御アルゴリズムの効率的な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-13T00:00:51Z) - TS-DP: Reinforcement Speculative Decoding For Temporal Adaptive Diffusion Policy Acceleration [64.32072516882947]
拡散ポリシーは、具体的制御が優れているが、高い推論遅延と計算コストに悩まされている。
時間認識強化に基づく投機的拡散政策(TS-DP)を提案する。
TS-DPは94%以上のドラフトで最大4.17倍高速な推論を実現し、推論周波数は25Hzに達した。
論文 参考訳(メタデータ) (2025-12-13T07:53:14Z) - SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling [9.936731043466699]
多段階アクションサンプリングプロセスの勾配が原因で,非政治強化学習による表現型フローベース政策の訓練が不安定であることが知られている。
フローロールアウトはリカレント計算に代数的に等価であり、RNNと同様の消滅や爆発的な勾配に影響を受けやすい。
我々は,これらのポリシーのエンドツーエンドのトレーニングを容易にする,ノイズ強化ロールアウトによって実現された実用的なSACベースのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-09-30T04:21:20Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [57.278726604424556]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Differentiable Discrete Event Simulation for Queuing Network Control [7.965453961211742]
キューのネットワーク制御は、高い性、大きな状態とアクション空間、安定性の欠如など、異なる課題を生んでいる。
本稿では,異なる離散イベントシミュレーションに基づくポリシー最適化のためのスケーラブルなフレームワークを提案する。
本手法は,非定常環境で動作するシステムなど,現実的なシナリオを柔軟に処理することができる。
論文 参考訳(メタデータ) (2024-09-05T17:53:54Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - DiffPD: Differentiable Projective Dynamics with Contact [65.88720481593118]
DiffPDは、暗黙の時間積分を持つ効率的な微分可能なソフトボディシミュレータである。
我々はDiffPDの性能を評価し,様々な応用における標準ニュートン法と比較して4~19倍のスピードアップを観測した。
論文 参考訳(メタデータ) (2021-01-15T00:13:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。