論文の概要: Performance Variation in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.06746v1
- Date: Thu, 04 Jun 2026 21:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.465404
- Title: Performance Variation in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習における性能変動
- Authors: Haruto Tanaka, A. Rupam Mahmood,
- Abstract要約: 本稿では,従来の不確実性と変分推定の限界について概説する。
次に,パーセンタイルを用いた統計・可視化手法を提案する。
これらのツールは容易に解釈でき、サンプルパーセンタイルの標準的な性質に依存している。
- 参考スコア(独自算出の注目度): 8.399817109063038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (RL) algorithms often suffer from low run-to-run robustness, manifesting as significant performance variation across independent runs of identically configured agents. Although this issue poses a spectrum of challenges across research and practice, relatively few studies develop methods to evaluate it; RL research instead often reports uncertainty in the estimated mean performance. In this paper, we outline the limitations of conventional uncertainty and variation estimates, particularly their misalignment with purpose and the risk of underreporting. We then propose an alternative percentile-based statistic and visualization method, min-max IPR and run-wise percentile highlighting, respectively. These percentile-based tools are easy to interpret and rely on standard properties of sample percentiles, providing rich information about run-to-run performance variation. We demonstrate this through three case studies. First, we show that LayerNorm and penultimate-layer normalizations narrow performance variation in PPO, whereas the variation is mostly unchanged in SAC. Second, we compare PPO, SAC, TD-MPC, and TD-MPC2, and show TD-MPC exhibits the least variation while being the most data efficient among the four. Finally, in a comparison of DQN and Rainbow on five Atari environments, we show that both algorithms exhibit similar levels of performance variation.
- Abstract(参考訳): ディープ強化学習(英語版) (RL) アルゴリズムは、しばしば実行時から実行時までのロバスト性に悩まされ、同じ構成のエージェントの独立した実行中において顕著なパフォーマンス変化を示す。
この問題は研究や実践に幅広い課題をもたらすが、評価方法を開発する研究は比較的少なく、RL研究は推定平均性能の不確実性を報告している。
本稿では,従来の不確実性と変量推定の限界,特に目的との相違,過度な報告のリスクについて概説する。
次に, min-max IPRとrun-wise persile highlightingという, パーセンタイル統計と可視化の代替手法を提案する。
これらのパーセンタイルベースのツールは、容易に解釈でき、サンプルパーセンタイルの標準的な特性に依存し、実行時のパフォーマンス変動に関する豊富な情報を提供する。
3つのケーススタディを通してこれを実証する。
まず、LayerNorm と Penultimate-layer normalization が PPO の性能変化を狭くするのに対して、SAC ではほとんど変化しないことを示す。
第2に、PPO、SAC、TD-MPC、TD-MPC2を比較し、TD-MPCが最もデータ効率のよいTD-MPCを示すことを示す。
最後に,5つのAtari環境におけるDQNとRainbowを比較し,両アルゴリズムが同様の性能変化を示すことを示した。
関連論文リスト
- Implicit Neural Representation-Based Continuous Single Image Super Resolution: An Empirical Study [50.15623093332659]
入射神経表現(INR)は任意のスケール画像超解像(ASSR)の標準的アプローチとなっている
既存の手法を多様な設定で比較し、複数の画像品質指標に対して集計結果を示す。
トレーニング中, エッジ, テクスチャ, 細部を保存しながら, 強度変化をペナライズする新たな損失関数について検討した。
論文 参考訳(メタデータ) (2026-01-25T07:09:20Z) - A Comparison Between Decision Transformers and Traditional Offline Reinforcement Learning Algorithms [0.0]
本稿では,従来のオフラインRLアルゴリズムに対するDTの性能を,密度・疎度な報酬設定で評価する。
その結果,DTは報酬密度の変動に対して他の方法に比べて感度が低いことがわかった。
IQLのような従来のバリューベースのメソッドでは、高品質なデータによる高密度な報酬設定のパフォーマンスが向上し、CQLでは、さまざまなデータ品質のバランスの取れたパフォーマンスが提供されていた。
論文 参考訳(メタデータ) (2025-11-20T15:44:11Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - Exploring the Performance of Continuous-Time Dynamic Link Prediction Algorithms [14.82820088479196]
ダイナミックリンク予測(DLP)は、進化するネットワークにおける将来のリンクの予測に対処する。
本研究では,このような総合的な評価を行うためのツールをコントリビュートする。
評価時に使用可能な陰性サンプリング手法の網羅的な分類法について述べる。
論文 参考訳(メタデータ) (2024-05-27T14:03:28Z) - Assessing the Impact of Distribution Shift on Reinforcement Learning
Performance [0.0]
強化学習(RL)は独自の課題に直面する。
点推定と訓練中の最適方針への収束を成功させるプロットの比較は、実験装置への過度な適合や依存を阻害する可能性がある。
本稿では,分散シフト下でのRLアルゴリズムのロバスト性を評価するための評価手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T23:50:55Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Actor Prioritized Experience Replay [0.0]
優先度付き体験再生(PER)では、エージェントは時間差誤差(TD)に比例した非一様確率でサンプリングされた遷移から学習することができる。
本稿では,アクター・クリティカルな手法に対する新しい経験リプレイ・サンプリング・フレームワークを紹介し,安定性の問題やPERの実証的性能の低下の背景にある最近の知見についても考察する。
我々の理論的主張を検証し、導入した手法が競合するアプローチを著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-09-01T15:27:46Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Deep Reinforcement Learning at the Edge of the Statistical Precipice [31.178451465925555]
深部RL体制下での信頼性評価は、現場の進捗を遅らせるリスクを負うことなく、結果の不確かさを無視することはできないと論じる。
我々は,集計性能の時間間隔推定を提唱し,結果の変動性を考慮した性能プロファイルを提案する。
論文 参考訳(メタデータ) (2021-08-30T14:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。