論文の概要: Continuous-time Optimal Stopping through Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.17545v1
- Date: Tue, 16 Jun 2026 05:49:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.294382
- Title: Continuous-time Optimal Stopping through Deep Reinforcement Learning
- Title(参考訳): 深層強化学習による連続時間最適停止
- Authors: Cosmin Borsa, Michael Ludkovski,
- Abstract要約: 最適停止問題に対するシミュレーションに基づく解法は停止決定を識別しなければならない。
我々は、任意の時間分解能で運動規則を学習できる新しい強化学習型アルゴリズムを開発した。
我々のCARLOSアルゴリズムは、集約型ディープニューラルネットワーク(ADNN)を用いて、共同で時空決定境界を学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Simulation based solvers for optimal stopping problems must discretize the stopping decision. Under classical dynamic programming, a coarse exercise grid with only a few stopping opportunities can materially undervalue the optimal expected reward, whereas on a very fine grid, approximation errors accumulate through the backward recursion. To remove this limitation, we develop a new reinforcement-learning inspired algorithm that enables us to learn the exercise rule at arbitrarily fine time resolution. Our CARLOS (Continuous-time Adaptive Reinforcement Learning for Optimal Stopping) algorithm utilizes an aggregate deep neural network (ADNN) to learn a joint space-time decision boundary. Starting from a coarse time grid, we progressively increase the frequency of stopping opportunities, while in parallel training the ADNN to refine its timing-value estimates. We moreover design an adaptive sampling strategy that gradually concentrates training effort near the stopping boundary. Benchmarked results show that CARLOS delivers higher prices than existing Bermudan solvers, approaching the American upper bound, and achieves high computational efficiency relative to non-RL comparators.
- Abstract(参考訳): 最適停止問題に対するシミュレーションに基づく解法は停止決定を識別しなければならない。
古典的動的プログラミングでは、わずかな停止機会しか持たない粗いエクササイズグリッドは、最適の期待された報酬を実質的に過小評価することができるが、非常に微細なグリッドでは、近似誤差は後方再帰を通じて蓄積される。
この制限を取り除くため、我々は任意の時間分解能で運動規則を学習できる新しい強化学習型アルゴリズムを開発した。
我々のCARLOS(Continuous-time Adaptive Reinforcement Learning for Optimal Stopping)アルゴリズムは、集約型ディープニューラルネットワーク(ADNN)を用いて、共同で時空決定境界を学習する。
粗い時間グリッドから始めて、ADNNを並列トレーニングしてタイミング値の推定を洗練しながら、停止する機会の頻度を徐々に増加させます。
さらに我々は,停止境界付近で徐々に訓練を集中させる適応的なサンプリング戦略を設計する。
ベンチマーク結果によると、CARLOSは既存のベルムダンソルバよりも高価格で、アメリカの上限に近づき、非RLコンパレータと比較して高い計算効率を実現する。
関連論文リスト
- HUANet: Hard-Constrained Unrolled ADMM for Constrained Convex Optimization [1.838884769821944]
HUANetは、制約付き凸最適化問題を解決するためのトレーニング可能なニューラルネットワークに、ALMM(Alternating Direction Method of Multipliers)のイテレーションをアンロールする、制約付きディープニューラルネットワークアーキテクチャである。
既存のエンドツーエンド学習手法は、パラメータからソリューションへのブラックボックスマッピングとして機能し、しばしば明示的な最適性原理を欠いている。
論文 参考訳(メタデータ) (2026-04-14T18:01:48Z) - When Learning Hurts: Fixed-Pole RNN for Real-Time Online Training [58.25341036646294]
本研究では,再帰性極の学習がデータに有意な利点をもたらしない理由を解析的に検討し,実時間学習シナリオを実証的に提供する。
固定極ネットワークは、トレーニングの複雑さを低減し、オンラインリアルタイムタスクにより適していることを示す。
論文 参考訳(メタデータ) (2026-02-25T00:15:13Z) - Evolving Constrained Reinforcement Learning Policy [5.4444944707433525]
本稿では,報酬と制約違反とを適応的にバランスする,進化的制約付き強化学習アルゴリズムを提案する。
ロボット制御ベンチマーク実験により、ECRLは最先端のアルゴリズムと比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-04-19T03:54:31Z) - Accelerated First-Order Optimization under Nonlinear Constraints [61.98523595657983]
我々は、制約付き最適化のための一階アルゴリズムと非滑らかなシステムの間で、新しい一階アルゴリズムのクラスを設計する。
これらのアルゴリズムの重要な性質は、制約がスパース変数の代わりに速度で表されることである。
論文 参考訳(メタデータ) (2023-02-01T08:50:48Z) - Learning-Assisted Algorithm Unrolling for Online Optimization with
Budget Constraints [27.84415856657607]
我々はLAAU(Learning-Assisted Algorithm Unrolling)と呼ばれる新しい機械学習支援アンローリング手法を提案する。
バックプロパゲーションによる効率的なトレーニングには、時間とともに決定パイプラインの勾配を導出します。
また、トレーニングデータがオフラインで利用可能で、オンラインで収集できる場合の2つのケースの平均的なコスト境界も提供します。
論文 参考訳(メタデータ) (2022-12-03T20:56:29Z) - Losing momentum in continuous-time stochastic optimisation [42.617042045455506]
運動量に基づく最適化アルゴリズムは 特に広まりました
本研究では、運動量を伴う勾配降下の連続時間モデルを解析する。
また、画像分類問題において畳み込みニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2022-09-08T10:46:05Z) - Continual Learning with Guarantees via Weight Interval Constraints [18.791232422083265]
ニューラルネットパラメータ空間の間隔制約を適用して、忘れを抑える新しいトレーニングパラダイムを導入する。
本稿では,モデルの連続的学習をパラメータ空間の連続的縮約として再構成することで,忘れることに制限を加える方法を示す。
論文 参考訳(メタデータ) (2022-06-16T08:28:37Z) - Short-Term Memory Optimization in Recurrent Neural Networks by
Autoencoder-based Initialization [79.42778415729475]
線形オートエンコーダを用いた列列の明示的暗記に基づく代替解を提案する。
このような事前学習が、長いシーケンスで難しい分類タスクを解くのにどのように役立つかを示す。
提案手法は, 長周期の復元誤差をはるかに小さくし, 微調整時の勾配伝播を良くすることを示す。
論文 参考訳(メタデータ) (2020-11-05T14:57:16Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。