論文の概要: Trust-Region Diffusion Policies for Massively Parallel On-Policy RL
- arxiv url: http://arxiv.org/abs/2606.15260v1
- Date: Sat, 13 Jun 2026 11:35:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:33.166337
- Title: Trust-Region Diffusion Policies for Massively Parallel On-Policy RL
- Title(参考訳): 大規模並列オンポリシィRLのための信頼緩和拡散政策
- Authors: Huy Le, Onur Celik, Denis Blessing, Tai Hoang, Claas A Voelcker, Axel Brunnbauer, Felix Richter, Michael Volpp, Gerhard Neumann,
- Abstract要約: 拡散モデルはより表現力のあるポリシークラスを提供し、挑戦的な制御問題に対して強い性能を示した。
ほとんどの拡散型RL法は、オフラインまたはオフラインの訓練用に設計されている。
トラスト領域拡散政策 (TruDi) は, 大規模並列シミュレーションによるオンラインRLの拡散政策を可能にする。
- 参考スコア(独自算出の注目度): 24.462107727661223
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning with massively parallel simulations has become a standard framework for developing robust, deployable policies; however, most existing approaches still rely on simple Gaussian policy parameterizations. Diffusion models provide a more expressive policy class and have shown strong performance on challenging control problems, yet most diffusion-based RL methods are designed for offline or off-policy training. In this work, we ask whether diffusion policies can be trained effectively in the massively parallel, on-policy regime. To this end, we introduce Trust-region Diffusion Policies (TruDi), which enables diffusion policies for on-policy RL with massively parallel simulations. This setting is particularly challenging because the data distribution changes quickly across updates, making stable training with complex policies difficult. TruDi addresses this by integrating a trust-region optimization rule to enforce a KL-divergence constraint over the entire diffusion trajectory. Empirically, we evaluate TruDi on a diverse set of 4 massively parallel RL benchmarks comprising a total of 73 tasks. Across these tasks, TruDi consistently outperforms or is on-par with strong baselines on standard tasks and achieves clear gains on more challenging humanoid control tasks, establishing a strong new baseline for massively parallel on-policy RL.
- Abstract(参考訳): 大規模並列シミュレーションによる強化学習は、堅牢でデプロイ可能なポリシーを開発するための標準フレームワークとなっているが、既存のほとんどのアプローチは依然として単純なガウスのポリシーパラメータ化に依存している。
拡散モデルは、より表現力のあるポリシークラスを提供し、挑戦的な制御問題に対して強い性能を示してきたが、ほとんどの拡散に基づくRL法は、オフラインまたは非政治的な訓練のために設計されている。
本研究は,大規模に平行な政治体制において,拡散政策を効果的に訓練できるかどうかを問うものである。
そこで我々はTruDi(TruDi)を導入し,大規模並列シミュレーションによるオンラインRLの拡散政策を実現する。
この設定は、更新間でデータ配布が急速に変化し、複雑なポリシによる安定したトレーニングが困難になるため、特に難しい。
TruDiはこの問題に対処するため、信頼領域最適化ルールを統合して、拡散軌道全体に対するKL分割制約を強制する。
実験により,TruDiを73タスクからなる4つの大規模並列RLベンチマークで評価した。
これらのタスク全体では、TruDiは、標準タスクの強力なベースラインと、より困難なヒューマノイド制御タスクの明確なゲインを一貫して上回り、非常に並列なRLのための強力な新しいベースラインを確立する。
関連論文リスト
- Flow-based Policy With Distributional Reinforcement Learning in Trajectory Optimization [8.371088557371236]
強化学習(Reinforcement Learning, RL)は、複雑な制御や意思決定タスクに対処する上で非常に効果的であることが証明されている。
分散RL(FP-DRL)を用いたフローベースポリシというRLアルゴリズムを提案する。
このアルゴリズムは、計算効率と複雑な分布に適合する能力の両方を提供するフローマッチングを用いてポリシーをモデル化する。
分散RLアプローチを用いてリターン分布全体をモデル化し、最適化することにより、マルチモーダルポリシー更新をより効果的に導出し、エージェント性能を向上させる。
論文 参考訳(メタデータ) (2026-04-01T14:47:41Z) - Dichotomous Diffusion Policy Optimization [46.51375996317989]
DIPOLEは、安定かつ制御可能な拡散ポリシー最適化のために設計された新しいRLアルゴリズムである。
また、DIPOLEを使用して、エンドツーエンドの自動運転のための大規模なビジョン言語アクションモデルをトレーニングしています。
論文 参考訳(メタデータ) (2025-12-31T16:56:56Z) - GoRL: An Algorithm-Agnostic Framework for Online Reinforcement Learning with Generative Policies [16.859964356466676]
GoRLは、条件付き生成デコーダを使用してアクションを合成しながら、トラクタブルな遅延ポリシーを最適化するフレームワークである。
GoRLは、ガウス政策と最近の世代政治のベースラインの両方を一貫して上回っている。
論文 参考訳(メタデータ) (2025-12-02T09:49:26Z) - Reinforcement Learning with Discrete Diffusion Policies for Combinatorial Action Spaces [57.466101098183884]
強化学習(Reinforcement Learning, RL)は、現実の多くの問題に共通する大規模なアクション空間にスケールするために苦労する。
本稿では、複雑な環境下での高効率なポリシーとして、離散拡散モデルを訓練するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T21:53:36Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。