論文の概要: Discovering Interpretable Multi-Parameter Control Policies for Evolutionary Algorithms Using Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.10129v1
- Date: Mon, 08 Jun 2026 20:06:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.173762
- Title: Discovering Interpretable Multi-Parameter Control Policies for Evolutionary Algorithms Using Deep Reinforcement Learning
- Title(参考訳): 深層強化学習を用いた進化的アルゴリズムのための解釈可能な多パラメータ制御法
- Authors: Tai Nguyen, Phong Le, Carola Doerr, Nguyen Dang,
- Abstract要約: 深層強化学習(deep-RL)は進化的アルゴリズムのパラメータ制御にますます応用されている。
我々は,OneMaxを最適化する1+($$,$$)-ジェネリックアルゴリズムを用いて,この障壁を克服するためにディープ・RLをどのように活用できるかを実証する。
この結果から、Double Deep Q-Networksは、近親政策最適化で観測される政策崩壊を独自に回避していることがわかった。
- 参考スコア(独自算出の注目度): 0.9417984568260906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While deep Reinforcement Learning (deep-RL) has been increasingly applied to parameter control in evolutionary algorithms, rigorous theoretical analysis of parameter control remains largely restricted to single-parameter settings, owing to the difficulty of deriving effective, interpretable multi-parameter policies amenable to formal study. We demonstrate how deep-RL can be leveraged to overcome this barrier, using the (1+($λ$,$λ$))-genetic algorithm optimizing OneMax, one of the few problems where a super-constant speedup of dynamic control has been formally proven, as a representative case study. We first show that standard approaches struggle to converge in this multi-parameter setting, and introduce algorithm-agnostic enhancements targeting action-space decomposition, reward shifting, and long-horizon discounting. With these in place, we compare common deep-RL methods and find that Double Deep Q-Networks uniquely avoid the policy collapse observed in Proximal Policy Optimization, yielding trajectories suitable for downstream analysis. Crucially, we move beyond the ``black-box'' nature of neural networks by distilling the learned behaviors into a transparent, symbolic control policy. This resulting policy does not only offer interpretability for future theoretical analysis but also yields exceptional performance, consistently outperforming existing baselines across a wide range of problem sizes.
- Abstract(参考訳): 深層強化学習(deep-RL)は進化的アルゴリズムのパラメータ制御にますます応用されているが、パラメータ制御の厳密な理論的分析は、形式的な研究に相応しい効果的な解釈可能なマルチパラメータポリシーを導出することの難しさから、主に単一パラメータ設定に限られている。
この障壁を克服するために、(1+($λ$,$λ$))-ジェネリックアルゴリズムを用いて、動的制御の超定常高速化が正式に証明された数少ない問題の1つであるOneMaxを最適化する方法を実証する。
まず、このマルチパラメータ設定に収束する上で、標準アプローチが困難であることを示し、アクション空間の分解、報酬シフト、長期割引を対象とするアルゴリズムに依存しない拡張を導入する。
これらの手法と組み合わせて、Double Deep Q-Networksは、近似政策最適化で観測される政策崩壊を独自に回避し、下流分析に適した軌道を得る。
重要なのは、学習した振る舞いを透明で象徴的なコントロールポリシーに蒸留することで、ニューラルネットワークの‘ブラックボックス’という性質を超えていきます。
この結果として得られるポリシーは、将来の理論的分析に対する解釈可能性を提供するだけでなく、例外的な性能も生み出す。
関連論文リスト
- Decoupling Numerical and Structural Parameters: An Empirical Study on Adaptive Genetic Algorithms via Deep Reinforcement Learning for the Large-Scale TSP [13.08340371229562]
本稿では,この2つの次元が旅行セールスマン問題(TSP)に与える影響を分離・解析するために,二重レベル深層強化学習(DRL)フレームワークを用いた実証的研究を提案する。
本研究では、これらのパラメータを動的に制御するために、リカレントPPOエージェントを使用し、DRLモデルをプローブとして扱い、進化力学を明らかにする。
数値的チューニングは局所的な洗練を提供するが、構造的可塑性は停滞を防ぎ、局所的な最適化から逃れる上で決定的な要因である。
論文 参考訳(メタデータ) (2026-03-21T07:56:39Z) - Deep Reinforcement Learning for Dynamic Algorithm Configuration: A Case Study on Optimizing OneMax with the (1+($λ$,$λ$))-GA [3.5485296570255183]
OneMaxインスタンス上の(1+($$,$$$)-GAの集団サイズパラメータを体系的に制御する。
DDQNとPPOについて検討した結果,DACの有効性を抑える2つの根本的な課題が明らかになった。
DDQNエージェント探索を強化するために,報酬分布統計を利用した適応型報酬シフト機構を導入する。
論文 参考訳(メタデータ) (2025-12-03T13:54:41Z) - StaQ it! Growing neural networks for Policy Mirror Descent [4.672862669694739]
強化学習(RL)では、理論と実践の両方において、正規化が一般的なツールとして現れている。
我々は,最後の$M$Q関数のみをメモリに保持するPMDのようなアルゴリズムを提案し,解析する。
有限で十分大きい$M$に対して、収束アルゴリズムを導出することができ、ポリシー更新にエラーは発生しない。
論文 参考訳(メタデータ) (2025-06-16T18:00:01Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Analyzing Generalization in Policy Networks: A Case Study with the
Double-Integrator System [13.012569626941062]
本稿では、状態分割と呼ばれる新しい解析手法を用いて、性能劣化の原因を明らかにする。
状態空間の拡大は、飽和度を示すために活性化関数$tanh$を誘導し、状態分割境界を非線形から線形に変換することを示した。
論文 参考訳(メタデータ) (2023-12-16T15:06:29Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。