論文の概要: Geometrically Averaged Hard Target Updates for Linear Q-Learning
- arxiv url: http://arxiv.org/abs/2606.10835v1
- Date: Tue, 09 Jun 2026 13:24:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.518173
- Title: Geometrically Averaged Hard Target Updates for Linear Q-Learning
- Title(参考訳): 線形Q-Learningのための幾何学的平均的ハードターゲット更新
- Authors: Donghwan Lee,
- Abstract要約: 近年の研究では、線形関数近似を含む関数近似によるQ-ラーニングにおける目標更新による安定性の向上が示唆されている。
いわゆる$-target updateを導入,解析し,$m$- periodic target update mapを$-geometric weightsで平均化する。
- 参考スコア(独自算出の注目度): 7.8232617281369805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Periodic hard target updates are among the most common stabilization devices in modern deep Q-learning. Recent studies suggest that target updates can improve stability in Q-learning with function approximation, including linear function approximation. We introduce and analyze the so-called $λ$-target update, obtained by averaging the $m$-periodic target update maps with $λ$-geometric weights $(1-λ)λ^{m-1}$, $λ\in [0,1]$. The endpoint $λ=0$ recovers the one-period target update, while the continuous endpoint $λ\uparrow1$ recovers projected Q-value iteration. We study this mechanism for Q-learning with linear function approximation, namely linear Q-learning, using a switching-system model and related tools. For clarity, the paper treats a deterministic version; the formulation extends to stochastic reinforcement-learning settings.
- Abstract(参考訳): 周期的ハードターゲット更新は、現代の深層Q-ラーニングにおいて最も一般的な安定化デバイスの一つである。
近年の研究では、線形関数近似を含む関数近似によるQ-ラーニングにおける目標更新による安定性の向上が示唆されている。
λ$-geometric weights $(1-λ)λ^{m-1}$, $λ\in [0,1]$でm$- periodic target update mapを平均化することによって得られる、いわゆる$λ$-target updateを導入・解析する。
エンドポイント $λ=0$ は1周期のターゲット更新を回復し、連続エンドポイント $λ\uparrow1$ は予測された Q-値の繰り返しを回復する。
本稿では,線形関数近似,すなわち線形Q-ラーニングを用いたQ-ラーニングのメカニズムについて,スイッチングシステムモデルと関連ツールを用いて検討する。
定式化は確率的強化学習設定にまで及んでいる。
関連論文リスト
- Target Updates May Stabilize Linear Q-Learning: Periodic and Soft Dynamics [7.8232617281369805]
本稿では,線形関数近似を用いたQ学習機構の厳密かつ正確に解析する(線形Q学習)。
線形Q-ラーニングは一般に収束しないが、明示的なスペクトルおよびステップサイズ条件下では、周期的ハードターゲット更新とソフトターゲット更新が正確なQ-ベルマン解の収束を保証することを証明している。
論文 参考訳(メタデータ) (2026-05-31T15:46:20Z) - Semiparametric Double Reinforcement Learning with Applications to Long-Term Causal Inference [33.14076284663493]
短期的なデータから長期的な因果効果を推定しなければならない。
MDPはこのような長期的ダイナミクスを捉えるための自然なフレームワークを提供する。
非パラメトリックな実装は時間間重なりの強い仮定を必要とする。
アイソトニックベルマンキャリブレーションに基づく新しいプラグイン推定器を提案する。
論文 参考訳(メタデータ) (2025-01-12T20:35:28Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Single Trajectory Nonparametric Learning of Nonlinear Dynamics [8.438421942654292]
力学系の1つの軌道が与えられた場合、非パラメトリック最小二乗推定器(LSE)の性能を解析する。
我々は最近開発された情報理論手法を活用し、非仮説クラスに対するLSEの最適性を確立する。
我々は、リプシッツ力学、一般化線形モデル、再生ケルネルヒルベルト空間(RKHS)のある種のクラスで記述される関数によって記述される力学など、実用上の関心のあるいくつかのシナリオを専門とする。
論文 参考訳(メタデータ) (2022-02-16T19:38:54Z) - Temporal-Difference Value Estimation via Uncertainty-Guided Soft Updates [110.92598350897192]
Q-Learningは、制御タスクを実行するポリシーを学ぶのに効果的であることが証明されている。
推定ノイズは、政策改善ステップにおける最大演算子の後、バイアスとなる。
UQL(Unbiased Soft Q-Learning)は、2つのアクション、有限状態空間からマルチアクション、無限状態マルコフ決定プロセスまで、EQLの作業を拡張する。
論文 参考訳(メタデータ) (2021-10-28T00:07:19Z) - Tightening the Dependence on Horizon in the Sample Complexity of
Q-Learning [59.71676469100807]
この研究は、同期Q-ラーニングのサンプルの複雑さを、任意の$0varepsilon 1$に対して$frac|mathcalS| (1-gamma)4varepsilon2$の順序に絞る。
計算やストレージを余分に必要とせずに、高速なq-learningにマッチするvanilla q-learningの有効性を明らかにした。
論文 参考訳(メタデータ) (2021-02-12T14:22:05Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。