論文の概要: Direct Advantage Estimation for Scalable and Sample-efficient Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.20411v1
- Date: Thu, 18 Jun 2026 15:58:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.967562
- Title: Direct Advantage Estimation for Scalable and Sample-efficient Deep Reinforcement Learning
- Title(参考訳): 拡張性とサンプル効率の深い強化学習のための直接アドバンテージ推定
- Authors: Hsiao-Ru Pan, Bernhard Schölkopf,
- Abstract要約: 遷移確率を効率的に近似する離散潜在力学モデルを導入する。
DAEは高い試料効率を維持しつつ,関数近似器の容量で効果的にスケールすることがわかった。
- 参考スコア(独自算出の注目度): 54.916555668983726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Advantage Estimation (DAE) has been shown to improve the sample efficiency of deep reinforcement learning algorithms. However, its reliance on full environment observability limits its applicability in realistic settings, and its requirement to model transition probabilities incurs substantial computational overhead for high-dimensional observations. In the present work, we address both limitations. First, we extend the theoretical framework of DAE to partially observable domains with minimal modifications. Second, we reduce its computational complexity by introducing discrete latent dynamics models that efficiently approximate transition probabilities. We evaluate our approach on the Arcade Learning Environment and find that DAE scales effectively with function approximator capacity while retaining high sample efficiency.
- Abstract(参考訳): 直接アドバンテージ推定(DAE)は、深層強化学習アルゴリズムのサンプル効率を向上させることが示されている。
しかし、フル環境観測性に依存しているため、現実的な環境での適用性は制限され、遷移確率をモデル化する必要があるため、高次元観測においてかなりの計算オーバーヘッドが生じる。
本研究では,2つの制約に対処する。
まず、DAEの理論的枠組みを、最小限の変更で部分的に観測可能な領域に拡張する。
第二に、遷移確率を効率的に近似する離散潜在力学モデルを導入することにより、計算複雑性を低減する。
アーケード学習環境に対する我々のアプローチを評価し,DAEは高いサンプル効率を維持しつつ,関数近似器の容量で効果的にスケールできることを見出した。
関連論文リスト
- Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。
本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文 参考訳(メタデータ) (2024-10-23T14:22:49Z) - On the Sample Efficiency of Abstractions and Potential-Based Reward Shaping in Reinforcement Learning [1.3381647310440739]
PBRSは、強化学習(RL)におけるサンプル非効率に挑戦する研究において、大きな可能性を秘めている。
まず,課題の最適値関数としてのポテンシャル関数の選択が性能上の優位性をもたらす理由について理論的に考察した。
そして、PBRSの文脈で有限地平線によって引き起こされるバイアスを解析し、新しい洞察を生み出す。
論文 参考訳(メタデータ) (2024-04-11T15:09:49Z) - A Surrogate Data Assimilation Model for the Estimation of Dynamical
System in a Limited Area [12.849290207344422]
限られた領域における効率的な状態推定のための学習に基づく代理データ同化モデルを提案する。
我々のモデルは、オンライン計算にフィードフォワードニューラルネットワークを使用し、高次元の限定領域モデルを統合する必要がなくなる。
論文 参考訳(メタデータ) (2023-07-14T06:10:00Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Posterior Sampling for Deep Reinforcement Learning [0.0]
本稿では, 深層強化学習のための後方サンプリング (PSDRL) について紹介する。
Atariベンチマークの実験では、PSDRLは後方サンプリングをスケールアップする従来の最先端の試行を著しく上回っている。
論文 参考訳(メタデータ) (2023-04-30T13:23:50Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。