論文の概要: RTSGameBench: An RTS Benchmark for Strategic Reasoning by Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.18950v2
- Date: Thu, 18 Jun 2026 08:25:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 13:55:51.817623
- Title: RTSGameBench: An RTS Benchmark for Strategic Reasoning by Vision-Language Models
- Title(参考訳): RTSGameBench: 視覚言語モデルによる戦略的推論のためのRTSベンチマーク
- Authors: San Kim, Daechul Ahn, Reokyoung Kim, Hyeonbeom Choi, Seungyeon Jwa, Jonghyun Choi,
- Abstract要約: リアルタイム戦略ゲームは、モダンビジョンランゲージモデル(VLM)の自然なテストベッドになり得る
戦場を拡大した大規模RTSゲームであるBeyond All Reason上に構築したRTSGameBenchを紹介する。
VLMが大規模RTSゲームで動作するためには,エージェントメモリを備えたFSMによるユニット管理を行うRTSGameAgentを提供する。
- 参考スコア(独自算出の注目度): 22.162253325526127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern Vision-Language Models (VLMs) often struggle with strategic reasoning, i.e., anticipating and influencing other agents' actions, under uncertainty in competitive and cooperative settings. Real-time strategy (RTS) games can be a natural testbed for diagnosing this limitation, as they demand coordination with allies, adaptation to opponents' strategy, and long-horizon planning under partial observability. However, existing RTS benchmarks offer limited evaluation scope, lack systematic competency diagnosis, and remain fixed in the pre-designed scenario coverage. To address these limitations, we present RTSGameBench, which is built on Beyond All Reason, a large-scale RTS game with an expanded battlefield that demands broader strategy diversity than the existing testbeds. The proposed benchmark provides evaluations through diverse gameplay across various matchup structures, diagnostic assessment via mini-games, each targeting an individual strategic competency, and extensible coverage via a self-evolving generation framework that converts free-form queries into new mini-games, improving over successive cycles. Additionally, for VLMs to operate in large-scale RTS games, we provide RTSGameAgent that manages units by an FSM with agentic memory. We empirically validate that multiple state-of-the-art VLMs do not perform well when matchups demand tighter coordination, multiagent coordination and when task scale increases.
- Abstract(参考訳): 現代のビジョン・ランゲージ・モデル(VLM)は、しばしば戦略的推論、すなわち他のエージェントの行動の予測と影響に苦しむ。
リアルタイム戦略(RTS)ゲームはこの制限を診断するための自然なテストベッドとなり得る。
しかしながら、既存のRTSベンチマークは、限られた評価範囲を提供し、体系的な能力診断を欠き、事前設計されたシナリオカバレッジで固定されている。
これらの制限に対処するため、我々は、既存のテストベッドよりも広範な戦略多様性を求める戦場を拡大した大規模なRTSゲームであるBeyond All Reason上に構築されたRTSGameBenchを紹介する。
提案するベンチマークは,様々なマッチアップ構造にわたる多様なゲームプレイによる評価,ミニゲームによる診断評価,個々の戦略能力をターゲットにした評価,および自由形式のクエリを新しいミニゲームに変換する自己進化型生成フレームワークによる拡張可能なカバレッジを提供する。
さらに,大規模なRTSゲームにおいてVLMが動作するためには,エージェントメモリを備えたFSMによるユニット管理を行うRTSGameAgentを提供する。
複数の最先端VLMが、マッチングがより厳密な調整、マルチエージェント調整、タスクスケールの増加を要求する場合、うまく動作しないことを実証的に検証する。
関連論文リスト
- MINDGAMES: A Live Arena for Evaluating Social and Strategic Reasoning in Multi-Agent LLMs [54.81359054218573]
大規模言語モデル(LLM)のためのマルチゲームアリーナと評価プラットフォームであるMindgamesを紹介する。
Mindgamesは、統合されたインタラクションインターフェース、TrueSkillベースの評価、および4つのゲーム環境にわたる完全な軌跡ログを提供する。
我々は,決定論的オフライントーナメントプロトコルMG-Refとともに,ターンレベルの観察,アクション,報酬を含む29,571個のマルチエージェントゲームを分析した。
論文 参考訳(メタデータ) (2026-05-28T07:33:47Z) - Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning [50.464623632604976]
本研究では,スーパーマリオランドにおける長期意思決定のための視覚言語モデル(VLM)の学習について検討する。
本稿では,軽量なターンレベルの批評家によるPPOの適応版を提案し,トレーニングの安定性とサンプル効率を大幅に向上させる。
我々は,VLMエージェントのオープントレーニングフレームワークであるOdysseusを紹介し,ゲーム内の複数のレベルにおいて,実質的なゲインを達成する。
論文 参考訳(メタデータ) (2026-05-01T02:05:56Z) - TowerMind: A Tower Defence Game Learning Environment and Benchmark for LLM as Agents [5.173133826653683]
本稿では,RTSゲームにおけるタワー防衛サブジャンルを基盤とした,新しい環境であるタワーミンドを紹介する。
我々は、広く使われている大規模言語モデルを評価するために、5つのベンチマークレベルを設計する。
その結果、LLMと人間の専門家の能力と幻覚の両面において、明らかなパフォーマンスギャップが明らかとなった。
論文 参考訳(メタデータ) (2026-01-09T16:18:08Z) - LM Fight Arena: Benchmarking Large Multimodal Models via Game Competition [104.81487689011341]
本稿では,Mortal Kombat IIにおける大規模マルチモーダルモデルを評価する新しいフレームワークであるLM Fight Arenaを紹介する。
静的評価とは異なり、LM Fight Arenaは完全に自動化され、再現可能で、LMMの戦略的推論能力の客観的評価を提供する。
論文 参考訳(メタデータ) (2025-10-10T02:19:21Z) - PillagerBench: Benchmarking LLM-Based Agents in Competitive Minecraft Team Environments [48.892997022500765]
PillagerBenchは、Minecraftのリアルタイムの競合チーム-vs-チームシナリオでマルチエージェントシステムを評価するフレームワークである。
また,LLMベースのマルチエージェントシステムであるTactiCrafterを提案する。
評価の結果、TactiCrafterはベースラインのアプローチよりも優れており、自己学習による適応学習を誇示している。
論文 参考訳(メタデータ) (2025-09-07T22:51:12Z) - Society of Mind Meets Real-Time Strategy: A Hierarchical Multi-Agent Framework for Strategic Reasoning [16.35236123729838]
我々は,Strategic Planner (SP) と呼ばれるメタコントローラの下で,特殊模倣学習エージェントを利用する階層型マルチエージェントフレームワークを提案する。
専門家によるデモンストレーションによって、各特殊エージェントは、航空支援や防御演習のような独特の戦略を学び、一貫性のある、構造化された多段階のアクションシーケンスを生成する。
SPはこれらの提案を1つの環境適応プランに編成し、局所的な決定が長期的な戦略と整合することを保証する。
論文 参考訳(メタデータ) (2025-08-08T05:57:12Z) - GameBench: Evaluating Strategic Reasoning Abilities of LLM Agents [4.209869303518743]
大規模言語モデルの戦略的推論能力を評価するためのクロスドメインベンチマークであるGameBenchを紹介する。
戦略的推論能力の向上を目的とした2つの足場フレームワークとともに,GPT-3とGPT-4をベースとして評価を行った。
以上の結果から,試験対象モデルと人体性能は一致せず,GPT-4は無作為な動作よりも悪い結果が得られた。
論文 参考訳(メタデータ) (2024-06-07T00:28:43Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - The Design Of "Stratega": A General Strategy Games Framework [62.997667081978825]
Strategaはターンベースおよびリアルタイム戦略ゲームを作成するためのフレームワークである。
このフレームワークは、統計的フォワードプランニング(SFP)エージェントに焦点を当てて構築されている。
我々は,このフレームワークとそのエージェントの開発が,戦略ゲームにおける複雑な意思決定プロセスの理解に役立つことを願っている。
論文 参考訳(メタデータ) (2020-09-11T20:02:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。