論文の概要: GARIP: A Running-Average Moving Reference for Last-Iterate Self-Play in Two-Player Zero-Sum Games
- arxiv url: http://arxiv.org/abs/2606.22688v1
- Date: Sun, 21 Jun 2026 22:08:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 07:36:02.636554
- Title: GARIP: A Running-Average Moving Reference for Last-Iterate Self-Play in Two-Player Zero-Sum Games
- Title(参考訳): GARIP: 2-player Zero-Sum Gamesにおける最後のIterate Self-Playのランニング・アベレージ・レファレンス
- Authors: Can Savcı,
- Abstract要約: ランニング平均に固定するGARIPについて検討し、参照制御の選択を分離する。
我々の中心的な結果は、崩壊が基準のピークラグを追跡するメカニズムであり、固定平均ラグの因果凸平均のうち、ランニング平均はそのピークを一意に最小化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-play with naive gradient ascent cycles in two-player zero-sum games: the last iterate orbits the equilibrium. Modern methods restore last-iterate convergence by regularizing toward a reference policy -- MMD a fixed one (reaching only the regularized equilibrium), R-NaD a periodic snapshot (the engine of DeepNash). We study GARIP, which anchors to the running average, and isolate what the choice of reference controls. Our central result is a mechanism: collapse tracks the peak lag of the reference, and among causal convex averages of a fixed mean lag the running average (flat profile, peak $=$ mean) uniquely minimizes that peak, while a snapshot's sawtooth has peak $= 2\times$ mean (a one-line theorem). Two consequences follow. Convergence: we prove local last-iterate convergence at constant anchor strength -- the anchor scales the base map's rotation by $1-β$, crossing the stability boundary and turning a recurrent base into a contraction (global convergence is conjectured at small $β$; we characterize a large-$β$ consensus failure). Robustness: GARIP matches R-NaD's peak performance -- on matrix games, the Coin Game, and the board games Connect Four/Othello, both moving references are far more robust than fixed-magnet and magnet-free baselines -- but is the better hyperparameter default; we report it both ways: over the full grid collapse rates are statistically indistinguishable, yet at conventional parameterizations a matched-mean-lag setting collapses in 0/40 vs 10/40 seeds (a snapshot matches it only by knowing to shorten $K$). The boundaries: an anticipatory (negative-weight) reference does better still on the stale side, and the advantage appears only where naive self-play cycles (five deep self-play loops). All experiments are pure JAX and reproducible.
- Abstract(参考訳): 2人のプレイヤーのゼロサムゲームにおける単純勾配上昇サイクルによる自己プレイ:最後の反復は平衡を公転する。
現代的な手法では、参照ポリシ(MDD)を固定値(正規化平衡のみを取得する)、R-NaDを周期スナップショット(DeepNashのエンジン)に正規化することで、最終項目収束を復元する。
ランニング平均に固定するGARIPについて検討し、参照制御の選択を分離する。
崩壊は基準のピークラグを追跡するメカニズムであり、固定平均ラグの因果凸平均のうち、ランニング平均(フラットプロファイル、ピーク$=$平均)はそのピークをユニークに最小化し、スナップショットのソートゥースはピーク$=2\times$平均(一直線定理)を持つ。
2つの結果が続く。
収束性: 局所的最終点収束を一定のアンカー強度で証明する -- アンカーは基底写像の回転を1-β$に拡大し、安定性境界を越え、再帰する基底を収縮に変換する(グローバル収束は小さいβ$で予想される。
ロバスト性: GARIPはR-NaDのピークパフォーマンス – マトリックスゲーム、コインゲーム、ボードゲームではConnect Four/Othelloで、両方の移動参照は固定マグネットやマグネットフリーベースラインよりもはるかに堅牢ですが、より優れたハイパーパラメータのデフォルトです。
境界:予測(負の重み付け)参照は、古い面の方が良いが、利点は、単純な自己再生サイクル(5つの深い自己再生ループ)にのみ現れることである。
すべての実験は純粋なJAXで再現可能である。
関連論文リスト
- Offline Two-Player Zero-Sum Markov Games with KL Regularization [23.339668121961463]
オフライン2プレイヤーゼロサムマルコフゲームにおけるナッシュ均衡の学習問題について検討する。
我々はまず,高速な$widetildemathcalO(1/n)$収束率を実現する理論フレームワークであるRegularized Offline Sequential Equilibrium (ROSE)を紹介した。
次に,最小二乗値推定と反復的自己再生更新に基づく実用的モデルフリーアルゴリズムであるSequential Offline Self-play Mirror Descent (SOS-MD)を提案する。
論文 参考訳(メタデータ) (2026-05-13T05:29:21Z) - The Harder Path: Last Iterate Convergence for Uncoupled Learning in Zero-Sum Games with Bandit Feedback [46.50566806285207]
ゼロサム行列ゲームにおいて繰り返しプレイやバンディットフィードバックで学習する問題について検討する。
プレイヤー間の通信なしに、最終項目のナッシュ均衡への収束を保証するアンカップリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-04-17T14:17:09Z) - Scale-Invariant Fast Convergence in Games [67.02769061793619]
我々は,スケールフリーでもスケール不変でも,高速収束を実現する学習力学を開発した。
2プレーヤゼロサムゲームに対しては、$tildeO(A_mathrmdiff)$で有界な外部後悔を伴うスケールフリーかつスケール不変のダイナミクスが得られる。
マルチプレイヤーの汎用ゲームでは、過去の観測に基づいて観察された勾配をクリップする2倍のクリッピングと呼ばれる手法によって、スケールフリーの学習も可能となる。
論文 参考訳(メタデータ) (2026-02-12T11:57:20Z) - Convergence of Regret Matching in Potential Games and Constrained Optimization [85.55969013318627]
RM$+$の交互収束は、$O_epsilon (1/epsilon4)$の後に$Epsilon$-KKT点に収束し、それが音で高速な一階数であることを示す。
我々の下界は、ポテンシャルゲームにおける粗相関平衡への収束が、ナッシュ平衡への収束よりも指数関数的に速いことを示している。
論文 参考訳(メタデータ) (2025-10-20T00:45:47Z) - Scale-Invariant Regret Matching and Online Learning with Optimal Convergence: Bridging Theory and Practice in Zero-Sum Games [60.871651115241406]
ゼロサムゲームにおける理論と実践の間、何十年にもわたってかなりのシャズムが一階法によって浸食されてきた。
我々は、IREG-PRM$+$と呼ぶPRM$+$の新しいスケール不変かつパラメータフリーな変種を提案する。
ベンチマークゲームでは, PRM$+$と同等でありながら, 最適収束保証を$T-1/2$, $T-1$とする。
論文 参考訳(メタデータ) (2025-10-06T00:33:20Z) - From Average-Iterate to Last-Iterate Convergence in Games: A Reduction and Its Applications [54.49053278073321]
大規模なゲームでは、非結合学習ダイナミクスの平均的な繰り返しを新しい非結合学習ダイナミクスの最後の繰り返しに変換する単純なブラックボックス還元が存在することを示す。
我々の削減は、各プレイヤーの効用が自身の戦略と全ての対戦者の共同戦略の両方において線形であるゲームに適用される。
論文 参考訳(メタデータ) (2025-06-04T00:24:14Z) - Local Convergence of Gradient Methods for Min-Max Games: Partial
Curvature Generically Suffices [0.5439020425819]
2つのプレイヤーゼロサム微分可能なゲームに対する勾配法の局所的ナッシュ平衡の収束について検討する。
偏曲のおかげで、円錐粒子法 -- 重みを最適化し、混合戦略をサポートする -- は、固定支持法よりも一般的に収束する。
論文 参考訳(メタデータ) (2023-05-26T21:43:56Z) - Gradient Descent-Ascent Provably Converges to Strict Local Minmax
Equilibria with a Finite Timescale Separation [11.091975655053547]
有限時間スケールの分離パラメータ $tau$ は、非プレイヤ、非コンケーブゼロサムゲームにおいて勾配降下度に比例することを示す。
タイムスケールコンピューティングがパフォーマンスに与える影響を実証的に示す。
論文 参考訳(メタデータ) (2020-09-30T17:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。