Fugu-MT 論文翻訳(概要): Superhuman AI for Generals.io Using Self-Play Reinforcement Learning

論文の概要: Superhuman AI for Generals.io Using Self-Play Reinforcement Learning

arxiv url: http://arxiv.org/abs/2606.23348v1
Date: Mon, 22 Jun 2026 13:52:22 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-24 22:28:24.253594
Title: Superhuman AI for Generals.io Using Self-Play Reinforcement Learning
Title（参考訳）: セルフプレイ強化学習を用いたジェネラルズ.ioのための超人的AI
Authors: Matej Straka, Viliam Lisý, Martin Schmid,
Abstract要約: 我々は、リアルタイム戦略ゲームであるGenerals.ioのための超人的AIエージェントを提示する。我々のエージェントは、5000人以上の人間のプレイヤーの公開1v1のリーダーボードで1位に達します。我々は、政策段階のループで自己プレイでビジョントランスフォーマーポリシーをエンドツーエンドでトレーニングし、勝利/損失報酬を疎結合にします。
参考スコア（独自算出の注目度）: 5.099083753474628
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a superhuman AI agent for Generals.io, a real-time strategy game that requires both long-horizon planning and short-term tactics under strong imperfect information. Trained for four days on 4x NVIDIA H200 GPUs, our agent reaches #1 on the public 1v1 leaderboard of over 5,000 human players, leading the second-ranked player by the same margin that separates second place from 25th, and beats the two top-ranked humans head-to-head with a combined 199-70 record across 269 ladder matches. A key enabler is a JAX-native simulator that reaches tens of millions of frames per second on a single GPU, roughly a 10,000x speedup over the prior simulator. On top of this, we train a vision transformer policy end-to-end by self-play with a policy-gradient loop and sparse win/loss reward, using top-advantage sample filtering and an exponential moving average of the policy parameters. Taken together, our findings highlight what matters, and what does not, once a fast simulator removes the data bottleneck.
Abstract（参考訳）: 我々は,強力な不完全な情報の下で,長期計画と短期戦術の両方を必要とするリアルタイム戦略ゲームであるGenerals.ioに,超人的AIエージェントを提示する。 4倍のNVIDIA H200 GPUで4日間トレーニングされ、私たちのエージェントは、5000人以上の人間のプレーヤーの公開1v1のリーダーボードで1位に達し、2位が25位と異なる同じマージンで2位となった。鍵となるイネーブルはJAXネイティブシミュレータで、1つのGPUで毎秒数千万フレームに達する。これに加えて、最上級サンプルフィルタリングと政策パラメータの指数的な移動平均を用いて、政策段階のループとスパース勝利/損失報酬で自己プレイによりビジョントランスフォーマーポリシーをエンドツーエンドにトレーニングする。まとめると、我々の発見は、高速シミュレーターがデータボトルネックを取り除くと、何が重要で、何が起こらないかを強調します。

関連論文リスト

NitroGen: An Open Foundation Model for Generalist Gaming Agents [101.41866522979548]
NitroGenは、ジェネラリストゲームエージェントのためのビジョンアクション基盤モデルである。 1000以上のゲームで4万時間のゲームプレイビデオでトレーニングされている。
論文参考訳（メタデータ） (2026-01-04T16:24:50Z)
Artificial Generals Intelligence: Mastering Generals.io with Reinforcement Learning [3.5036467860577307]
我々は,週に数千人のアクティブプレイヤーが参加するゲームであるGenerals.ioをベースとしたリアルタイム戦略ゲーム環境を導入する。我々の環境はGymnasiumやPettingZooと完全に互換性があり、コモディティハードウェア上で毎秒数千フレームを実行できる。
論文参考訳（メタデータ） (2025-07-09T13:15:05Z)
Human-Level Competitive Pokémon via Scalable Offline Reinforcement Learning with Transformers [24.201490513370523]
コンペティティブ・ポクモン・シングルズ (Competitive Pok'emon Singles, CPS) は、プレイヤーが不完全な情報に基づいて相手を悪用することを学ぶ人気戦略ゲームである。観察者の3人称視点から保存したログからエージェントの1人称視点を再構築するパイプラインを開発する。このデータセットは、入力軌跡のみに基づいて相手に適応するように、大規模なシーケンスモデルをトレーニングするブラックボックスアプローチを可能にする。
論文参考訳（メタデータ） (2025-04-06T07:35:15Z)
Robust Autonomy Emerges from Self-Play [63.44745854476206]
我々は、前例のない規模のシミュレーションにおいて、頑健で自然主義的な運転が、完全に自己プレイから現れることを示す。 Gigaflowは、42年間の主観的な運転体験を1時間に合成し、訓練することができる。
論文参考訳（メタデータ） (2025-02-05T16:41:05Z)
Are AlphaZero-like Agents Robust to Adversarial Perturbations? [73.13944217915089]
AlphaZero(AZ)は、ニューラルネットワークベースのGo AIが人間のパフォーマンスを大きく上回ることを示した。私たちは、Go AIが驚くほど間違った行動を起こさせる可能性のある、敵対的な状態が存在するかどうか尋ねる。我々は、Go AIに対する最初の敵攻撃を開発し、探索空間を戦略的に減らし、効率よく敵の状態を探索する。
論文参考訳（メタデータ） (2022-11-07T18:43:25Z)
Mastering the Game of No-Press Diplomacy via Human-Regularized Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。 RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文参考訳（メタデータ） (2022-10-11T14:47:35Z)
Megaverse: Simulating Embodied Agents at One Million Experiences per Second [75.1191260838366]
私たちは、強化学習と具体化AI研究のための新しい3DシミュレーションプラットフォームであるMegaverseを紹介します。 MegaverseはDeepMind Labより最大70倍速い。私たちはMegaverseを使って、複数の単一エージェントタスクとマルチエージェントタスクからなる新しいベンチマークを構築します。
論文参考訳（メタデータ） (2021-07-17T03:16:25Z)
Deep RL Agent for a Real-Time Action Strategy Game [0.3867363075280543]
1対1のアクション戦略ゲームであるHeroic-Magic Duelをベースとした強化学習環境を導入する。私たちの主な貢献は、競争レベルでゲームをする深層強化学習エージェントです。私たちの最高のセルフプレイエージェントは、既存のAIに対して約65%の勝利率と、トップヒューマンプレイヤーに対して50%以上の勝利率を得ることができます。
論文参考訳（メタデータ） (2020-02-15T01:09:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。