論文の概要: Deterministic Policy Gradient for Learning Equilibrium in Time-Inconsistent Control Problems
- arxiv url: http://arxiv.org/abs/2606.11798v1
- Date: Wed, 10 Jun 2026 08:31:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.364738
- Title: Deterministic Policy Gradient for Learning Equilibrium in Time-Inconsistent Control Problems
- Title(参考訳): 時間不整合制御問題における平衡学習のための決定論的政策勾配
- Authors: Xin Guo, Yijie Huang, Xiang Yu,
- Abstract要約: 決定論的均衡ポリシーを学習するための連続時間モデルフリー強化学習アルゴリズムを開発した。
我々のアルゴリズムは、異なる時間的一貫性の源の下で、統一された方法で平衡を学習することを目的としている。
- 参考スコア(独自算出の注目度): 6.052777291016067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we develop a continuous-time model-free reinforcement learning algorithm to learn deterministic equilibrium policies in general time-inconsistent control problems. Utilizing the extended Hamilton-Jacobi-Bellman system, we recast the original time-inconsistent problem into an equivalent two-stage problem. In the first stage, for given auxiliary functions, we employ the deterministic policy gradient approach to learn an optimal policy in an auxiliary time-consistent control problem. In the second stage, given the updated policy, we exploit the inner fixed point iterations and some martingale characterizations to learn the auxiliary functions. As a theoretical contribution, we provide some mild model assumptions and establish the convergence of inner fixed point iterations. By repeating this actor-critic style of iterations across two stages, our algorithm aims to learn the equilibrium under different sources of time-inconsistency in a unified manner. The superior effectiveness of the proposed algorithm are illustrated in two classical financial applications with time-inconsistency: mean-variance portfolio management and optimal tracking portfolio under non-exponential discounting.
- Abstract(参考訳): 本稿では,時間不整合制御問題における決定論的均衡ポリシを学習するための連続時間モデルフリー強化学習アルゴリズムを開発する。
拡張ハミルトン・ヤコビ・ベルマン系を用いて、元の時間矛盾問題を等価な2段階問題に再キャストする。
第1段階では、与えられた補助関数に対して、決定論的ポリシー勾配法を用いて、補助的時間一貫性制御問題において最適なポリシーを学習する。
第2段階では、更新されたポリシーを考慮し、内部の固定点反復といくつかのマーチンゲール特性を利用して補助関数を学習する。
理論的貢献として、いくつかの穏やかなモデル仮定を提供し、内部固定点反復の収束を確立する。
このアクター批判的な2段階の反復を繰り返すことで、我々のアルゴリズムは、異なる時間的一貫性の源の下で、統一された方法で平衡を学習することを目指している。
提案アルゴリズムの優れた有効性は、平均分散ポートフォリオ管理と非指数割引に基づく最適追跡ポートフォリオという2つの古典的金融アプリケーションにおいて示される。
関連論文リスト
- Continuous Policy and Value Iteration for Stochastic Control Problems and Its Convergence [8.65436459753278]
本稿では,制御問題の値関数と最適制御の近似をLangevin型力学を用いて同時に更新する連続ポリシー反復アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-09T18:20:21Z) - Deep Learning for Continuous-time Stochastic Control with Jumps [0.688204255655161]
本研究では,ジャンプによる有限水平連続時間制御問題を解くためのモデルに基づくディープラーニング手法を提案する。
我々は2つのニューラルネットワークを反復的に訓練する: 1つは最適ポリシーを表現するもので、もう1つは値関数を近似するものである。
論文 参考訳(メタデータ) (2025-05-21T14:57:39Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Bellman Residual Orthogonalization for Offline Reinforcement Learning [53.17258888552998]
我々はベルマン方程式を近似した新しい強化学習原理を導入し、その妥当性をテスト関数空間にのみ適用する。
我々は、この原則を利用して、政策外の評価のための信頼区間を導出するとともに、所定の政策クラス内の政策を最適化する。
論文 参考訳(メタデータ) (2022-03-24T01:04:17Z) - Temporal Difference Learning with Continuous Time and State in the
Stochastic Setting [0.0]
継続的政策評価の問題点を考察する。
これは、制御されていない連続時間ダイナミクスと報酬関数に関連付けられた値関数を観察を通して学習する。
論文 参考訳(メタデータ) (2022-02-16T10:10:53Z) - A Subgame Perfect Equilibrium Reinforcement Learning Approach to
Time-inconsistent Problems [4.314956204483074]
我々は,時間一貫性(TIC)問題に対するサブゲーム完全均衡強化学習フレームワークを構築した。
我々は,SPERLを解き,両課題に対処する,BPI(backward Policy iteration)と呼ばれるアルゴリズムの新たなクラスを提案する。
トレーニングフレームワークとしてのBPIの実用性を実証するため,標準的なRLシミュレーション手法を適用し,2つのBPIベースのトレーニングアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-10-27T09:21:35Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。