論文の概要: OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics
- arxiv url: http://arxiv.org/abs/2606.09826v1
- Date: Mon, 08 Jun 2026 17:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.689673
- Title: OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics
- Title(参考訳): OmniGameArena: 改善されたダイナミクスを備えたVLMゲームエージェント用の統一UE5ベンチマーク
- Authors: Mingxian Lin, Shengju Qian, Yuqi Liu, Yi-Hua Huang, Yiyu Wang, Wei Huang, Yitang Li, Fan Zhang, Zeyu Hu, Lingting Zhu, Xin Wang, Xiaojuan Qi,
- Abstract要約: 視覚言語モデル(VLM)エージェントは、インタラクティブなゲーム環境にますます多くデプロイされている。
VLMエージェントのゲームベンチマークでは、通常、(エージェント、ゲーム)ペア当たりの1対1の初動スコアを報告し、シングルエージェントのSoloプレイに集中し、異種エージェントクラスを評価するための統一されたプロトコルが欠如している。
我々は,Solo (7), 変種(3), Coop (2)に統一されたアクションインターフェースを備えた新しいUnreal Engine 5ゲーム12のリアルタイムベンチマークであるOmniGameArenaと,エージェント・リフレクション・ハーネスであるAdvanced Dynamics Curve (IDC)とのギャップに対処する。
- 参考スコア(独自算出の注目度): 39.555682739423794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language model (VLM) agents are increasingly deployed in interactive game environments. Yet game benchmarks for VLM agents typically report a single first-attempt score per (agent, game) pair, focus on single-agent Solo play, and lack unified protocols for evaluating heterogeneous agent classes (commercial VLMs, open-weight VLMs, and specialized game policies) on the same footing. We address these gaps with OmniGameArena, a real-time benchmark of twelve newly built Unreal Engine 5 games spanning Solo (7), PvP (3), and Coop (2) with unified action interfaces, and the Improvement Dynamics Curve (IDC), an agentic-reflection harness in which a tool-using reflector LLM autonomously refines a bounded skill prompt across multiple rounds. Beyond cold-start leaderboard scores, IDC exposes two additional observables for each (agent, game) pair: how the score evolves across reflection rounds, and how the learned skill behaves on held-out task variants. We report these observables for twelve VLM agents on the cold-start leaderboard and four top agents under IDC.
- Abstract(参考訳): 視覚言語モデル(VLM)エージェントは、インタラクティブなゲーム環境にますます多くデプロイされている。
しかし、VLMエージェントのゲームベンチマークでは、通常は1対(エージェント、ゲーム)のペア当たりの1対1の試行スコアを報告し、シングルエージェントのSoloプレイに集中し、同じ足場上で異種エージェントクラス(商用VLM、オープンウェイトVLM、特殊ゲームポリシー)を評価するための統一プロトコルを欠いている。
我々は,Solo (7), PvP (3), Coop (2)に統一されたアクションインターフェースを備えた,新たに構築された12のUnreal Engine 5ゲームを対象としたリアルタイムベンチマークであるOmniGameArenaと,ツール用リフレクタLLMが複数のラウンドにまたがるバウンダリスキルを自律的に洗練するエージェント・リフレクション・ハーネスであるDevelopment Dynamics Curve (IDC)とのギャップに対処する。
コールドスタートのリーダーボードスコア以外にも、IDCは各(エージェント、ゲーム)ペアに対して、スコアがリフレクションラウンド間でどのように進化するか、学習したスキルがホールドアウトタスクのバリエーションに対してどのように振る舞うか、という2つの観測可能なことを公開している。
コールドスタート式リーダーボード上の12のVLMエージェントと、IDC下の4つのトップエージェントについて、これらのオブザーバブルを報告した。
関連論文リスト
- GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents [76.60994803070436]
GameWorldは、ブラウザ環境におけるマルチモーダル大言語モデル(MLLM)ゲームエージェントの評価のためのベンチマークである。
2つのゲームエージェントインタフェースが研究され、 (i) キーボードとマウスのコントロールを直接出力するコンピュータ利用エージェント、 (ii) セマンティックアクション空間で作用する汎用マルチモーダルエージェントが研究されている。
18組のモデルとインタフェースのペアによる結果は、最高のパフォーマンスエージェントでさえ、ビデオゲームで人間の能力を達成するには程遠いことを示唆している。
論文 参考訳(メタデータ) (2026-04-08T17:49:03Z) - GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents [4.920953895710103]
本稿では,エージェント中心の認識と推論をビデオ理解を通じて評価するフレームワークであるGameplayQAを紹介する。
我々は,自己,他エージェント,世界という三進的システムを中心に構築された状態,行動,イベントの同時キャプションを同期した,1.22ラベル/秒のマルチプレイヤー3Dゲームプレイビデオを高密度に注釈付けする。
これらのアノテーションを用いて,3段階の認知複雑性に分類された2.4Kの診断QAペアを改良し,構造的障害分類を行った。
論文 参考訳(メタデータ) (2026-03-25T14:10:45Z) - LM Fight Arena: Benchmarking Large Multimodal Models via Game Competition [104.81487689011341]
本稿では,Mortal Kombat IIにおける大規模マルチモーダルモデルを評価する新しいフレームワークであるLM Fight Arenaを紹介する。
静的評価とは異なり、LM Fight Arenaは完全に自動化され、再現可能で、LMMの戦略的推論能力の客観的評価を提供する。
論文 参考訳(メタデータ) (2025-10-10T02:19:21Z) - Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games [29.194229891848853]
Orakは、さまざまな現実世界のビデオゲームでLarge Language Model (LLM)エージェントをトレーニングし、評価するために設計されたベンチマークである。
LLMの一貫した評価を支援するために,モデルコンテキストプロトコル(MCP)に基づくプラグアンドプレイインタフェースを導入する。
Orakは総合的な評価フレームワークを提供しており、一般的なゲームスコアのリーダーボード、LLMバトルアリーナ、視覚入力状態、エージェント戦略、微調整効果の詳細な分析を含んでいる。
論文 参考訳(メタデータ) (2025-06-04T06:40:33Z) - Cultivating Game Sense for Yourself: Making VLMs Gaming Experts [23.370716496046217]
ゲームプレイエージェント設計におけるパラダイムシフトを提案する。
ゲームプレイを直接制御する代わりに、VLMは射撃や戦闘などのタスクに適した特殊な実行モジュールを開発する。
これらのモジュールはリアルタイムゲームインタラクションを処理し、VLMをハイレベルな開発者に高める。
論文 参考訳(メタデータ) (2025-03-27T08:40:47Z) - AVA: Attentive VLM Agent for Mastering StarCraft II [56.07921367623274]
Intentive VLM Agent (AVA) は、人工エージェントの認識と人間のゲームプレイ体験を一致させるマルチモーダルのStarCraft IIエージェントである。
我々のエージェントは、ゲームプレイ中に人間の認知過程をより密にシミュレートするRGB視覚入力と自然言語観察を組み込むことにより、この制限に対処する。
論文 参考訳(メタデータ) (2025-03-07T12:54:25Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは、マルチエージェント環境における大規模言語モデルのゲーム能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
以上の結果から, GPT-3.5は強い強靭性を示すが, 一般化性は限定的であり, Chain-of-Thoughtのような手法で拡張可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。