Fugu-MT 論文翻訳(概要): EMAgnet: Parameter-Space EMA Regularization for Policy Gradient Self-Play in Large Games

論文の概要: EMAgnet: Parameter-Space EMA Regularization for Policy Gradient Self-Play in Large Games

arxiv url: http://arxiv.org/abs/2606.23995v1
Date: Mon, 22 Jun 2026 23:05:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-24 22:16:48.707989
Title: EMAgnet: Parameter-Space EMA Regularization for Policy Gradient Self-Play in Large Games
Title（参考訳）: EMAgnet:大規模ゲームにおけるポリシーグラディエントセルフプレイのためのパラメータ空間EMA正規化
Authors: Tristan Maidment, JB Lanier, Chase McDonald, Nathan Tsang, Eugene Vinitsky, Roy Fox, Albert Wang, Wesley N. Kerr,
Abstract要約: 本稿では,最終項目のパラメータの指数移動平均(EMA)に対して規則化を行うEMAgnetを紹介する。我々は,標準的な2プレイヤーゼロサムベンチマークと,探索課題と厳格に支配された戦略を多数備えた改良ベンチマークの両方でEMAgnetを評価した。
参考スコア（独自算出の注目度）: 7.112274315889505
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent work has established that regularized policy gradient methods such as PPO, when used in self-play, can match or exceed specialized game-theoretic algorithms for solving two-player zero-sum imperfect-information games. The uniform distribution has emerged as a strong policy regularization target for this purpose, but it regularizes equally toward all actions regardless of their viability. We introduce EMAgnet, which instead regularizes toward an exponential moving average (EMA) of the last-iterate policy's parameters, providing an adaptive regularization target that evolves with the agent's improving strategy. We evaluate EMAgnet on both standard two-player zero-sum benchmarks and modified benchmarks with exploration challenges and large numbers of strictly dominated strategies. Relative to PPO self-play with uniform-magnet regularization under both linear and power-law annealing schedules, EMAgnet achieves lower exploitability in the majority of tested environments, with consistent performance gains across games containing strictly dominated strategies.
Abstract（参考訳）: 最近の研究は、PPOのような規則化されたポリシー勾配法が、セルフプレイで使用される場合、2つのプレイヤーのゼロサム不完全情報ゲームを解決するための特別なゲーム理論アルゴリズムと一致するか、あるいは超える可能性があることを証明している。均一分布は、この目的のために強力な政策正則化ターゲットとして現れてきたが、その可能性に関わらず、全ての行動に対して等しく規則化されている。 EMAgnetは、最終政策のパラメータの指数的移動平均(EMA)に向かって正規化し、エージェントの改善戦略とともに進化する適応的正規化ターゲットを提供する。我々は,標準的な2プレイヤーゼロサムベンチマークと,探索課題と厳格に支配された戦略を多数備えた改良ベンチマークの両方でEMAgnetを評価した。 EMAgnetは、リニアおよびパワーローのアニーリングスケジュールの両方の下で均一なマグネット正規化を伴うPPOセルフプレイとは対照的に、テスト環境の大部分において、より低いエクスプロイザビリティを実現し、厳格に支配された戦略を含むゲーム間で一貫したパフォーマンス向上を実現している。

関連論文リスト

MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文参考訳（メタデータ） (2026-01-12T05:02:48Z)
Policy Optimization and Multi-agent Reinforcement Learning for Mean-variance Team Stochastic Games [1.430310470698995]
長期平均分散チームゲーム(MV-TSG)について検討する。 MV-TSGの主な課題は2つある。第一に、分散計量は動的条件下では加法的でもマルコフ的でもない。逐次更新方式を用いた平均分散マルチエージェントポリシー反復 (MV-MAPI) アルゴリズムを提案する。定常点の特定の条件をナッシュ平衡とし、さらに厳密な局所最適条件を導出する。
論文参考訳（メタデータ） (2025-03-28T16:21:05Z)
RSPO: Regularized Self-Play Alignment of Large Language Models [54.593523736962]
Regularized Self-Play Policy Optimization (RSPO) は、事前のメソッドを統一し、様々な正規化ツールのプラグイン・アンド・プレイ統合を可能にする汎用的でモジュール化されたフレームワークである。 20ドル以上の微調整Mistral-7B-Instructモデルに関する実証研究により、前方KL偏差正規化は応答長を減少させる一方、逆KL偏差は生の利得率を著しく向上させることが明らかとなった。
論文参考訳（メタデータ） (2025-02-24T22:43:21Z)
Adaptive Opponent Policy Detection in Multi-Agent MDPs: Real-Time Strategy Switch Identification Using Running Error Estimation [1.079960007119637]
OPS-DeMoは、動的エラー減衰を利用して相手のポリシーの変更を検出するオンラインアルゴリズムである。提案手法は,プレデター・プレイ設定のような動的シナリオにおいて,PPO学習モデルよりも優れている。
論文参考訳（メタデータ） (2024-06-10T17:34:44Z)
OMPO: A Unified Framework for RL under Policy and Dynamics Shifts [42.57662196581823]
様々な政策やダイナミクスから収集された環境相互作用データを用いた強化学習政策の訓練は、根本的な課題である。既存の作業は、ポリシーやダイナミクスのシフトによって引き起こされる分散の相違を見落としている場合が多い。本稿では,オンラインRL政策学習のための統一的戦略をポリシーと動的シフトの多様な設定の下で同定する。
論文参考訳（メタデータ） (2024-05-29T13:36:36Z)
Local Optimization Achieves Global Optimality in Multi-Agent Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文参考訳（メタデータ） (2023-05-08T16:20:03Z)
Faster Last-iterate Convergence of Policy Optimization in Zero-Sum Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文参考訳（メタデータ） (2022-10-03T16:05:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。