論文の概要: Backpropagating Through Simulation: Analytic Policy Gradients for Sample and Learning Efficient Differentiable Continuous Control
- arxiv url: http://arxiv.org/abs/2606.21525v1
- Date: Fri, 19 Jun 2026 15:22:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 12:54:06.201154
- Title: Backpropagating Through Simulation: Analytic Policy Gradients for Sample and Learning Efficient Differentiable Continuous Control
- Title(参考訳): シミュレーションによるバックプロパゲーティング: サンプルと学習効率のよい連続制御のための分析的ポリシー勾配
- Authors: Yueci Deng,
- Abstract要約: 解析政策勾配 (APG) とPPO (PPO) は, 動的複雑性を増大させる4つの連続制御タスクにおいてPPOに対して評価される。
長軸タスクの劣化を緩和するMCと批評家によるブートストラップモードによるセグメント化バックプロパゲーション手法を報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-free reinforcement learning algorithms such as Proximal Policy Optimization (PPO) treat the environment as a black box, estimating policy gradients from sampled rewards; this process demands millions of interactions and relies on high-variance advantage estimates. When environment dynamics are differentiable, the return is an end-to-end differentiable function of the policy parameters, enabling exact gradient computation via backpropagation through simulation. We term this approach Analytic Policy Gradients (APG) and evaluate it against PPO on four continuous control tasks of increasing dynamical complexity: a one-dimensional point-mass target-reaching task, a 2D point-mass navigation task with obstacle avoidance, a 2D rigid-body T-block pushing task, and a 7-DOF Franka FR3 end-effector reaching task. Both algorithms share identical model architectures, observation normalization, and optimizer settings. To decouple sample efficiency from compute efficiency, we design a multi-axis evaluation protocol that records performance against environment steps and gradient steps. We report a segmented backpropagation scheme with MC and critic-based bootstrap modes that mitigates gradient degradation on long-horizon tasks, and present ablations over segment length and bootstrap strategy.
- Abstract(参考訳): PPO(Proximal Policy Optimization)のようなモデルなし強化学習アルゴリズムは、環境をブラックボックスとして扱い、サンプルされた報酬からポリシー勾配を推定する。
環境力学が微分可能である場合、リターンはポリシーパラメータのエンドツーエンドの微分可能関数であり、シミュレーションによるバックプロパゲーションによる正確な勾配計算を可能にする。
この手法をAPG(Analytic Policy Gradients)と呼び,動的複雑性を増大させる4つの連続制御タスク(1次元ポイントマス目標到達タスク,障害物回避2次元ポイントマスナビゲーションタスク,2次元剛体Tブロックプッシュタスク,7-DOFフランカFR3エンドエフェクタ到達タスク)に対して評価する。
どちらのアルゴリズムも同一のモデルアーキテクチャ、観察正規化、オプティマイザ設定を共有している。
サンプル効率を計算効率から切り離すために,環境ステップや勾配ステップに対する性能を記録する多軸評価プロトコルを設計する。
長軸タスクの劣化を緩和するMCおよび批評家によるブートストラップモードを用いたセグメント化バックプロパゲーション方式を報告し、セグメント長とブートストラップ戦略に関する改善を提示する。
関連論文リスト
- Actor-Critic with Active Importance Sampling [61.41272490044518]
本稿では,Active-Importance-Sampling Actor-Critic (AISAC)アルゴリズムを提案する。
AISACはActor-Criticフレームワークの拡張であり、ポリシー勾配推定のばらつきを低減する。
実験では、標準的なアクター・クライブ法と比較して学習速度、サンプル効率、トレーニングが改善された。
論文 参考訳(メタデータ) (2026-05-08T01:21:32Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Stabilizing Policy Gradients for Stochastic Differential Equations via Consistency with Perturbation Process [11.01014302314467]
我々は、ディープニューラルネットワークパラメータ化微分方程式(SDE)の最適化に焦点をあてる。
我々は、SDEが関連する摂動過程と整合するように制約することを提案する。
我々のフレームワークは、SDEを効果的かつ効率的に訓練するためのポリシー勾配法を多目的に選択する。
論文 参考訳(メタデータ) (2024-03-07T02:24:45Z) - Gradient Informed Proximal Policy Optimization [35.22712034665224]
本稿では,PPOアルゴリズムと差別化可能な環境からの解析的勾配を統合した新しいポリシー学習手法を提案する。
アルファ値を適応的に修正することにより、学習中の分析的方針勾配の影響を効果的に管理できる。
提案手法は, 関数最適化, 物理シミュレーション, 交通制御環境など, 様々なシナリオにおいて, ベースラインアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-12-14T07:50:21Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Jointly Learning Environments and Control Policies with Projected
Stochastic Gradient Ascent [3.118384520557952]
この問題を解決するために,政策勾配法とモデルに基づく最適化手法を組み合わせた深層強化学習アルゴリズムを提案する。
本質的に,本アルゴリズムはモンテカルロサンプリングと自動微分によって予測されるリターンの勾配を反復的に近似する。
DEPSは、少なくとも3つの環境では、より少ないイテレーションで高いリターンのソリューションを一貫して得ることができる、ということが示されます。
論文 参考訳(メタデータ) (2020-06-02T16:08:07Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。