論文の概要: JAMER: Project-Level Code Framework Dataset and Benchmark on Professional Game Engines
- arxiv url: http://arxiv.org/abs/2606.19830v2
- Date: Sun, 21 Jun 2026 05:48:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:14.867458
- Title: JAMER: Project-Level Code Framework Dataset and Benchmark on Professional Game Engines
- Title(参考訳): JAMER: プロのゲームエンジン上でのプロジェクトレベルのコードフレームワークデータセットとベンチマーク
- Authors: Jianwen Sun, Chuanhao Li, Zizhen Li, Yukang Feng, Fanrui Zhang, Yifei Huang, Yu Dai, Kaipeng Zhang,
- Abstract要約: プロのゲームエンジン上に構築された最初のプロジェクトレベルのゲームコードフレームワークデータセットとベンチマークであるJamSetとJamBenchを紹介します。
私たちの重要な洞察は、Game Jamコンペティションは、開発者が厳密な時間制約の下で完全なゲームを構築するコミュニティイベントであり、この目的に適した何千ものオープンソースプロジェクトを生み出します。
- 参考スコア(独自算出の注目度): 38.658731944117875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current AI-driven game development has made substantial progress in asset generation, gameplay design, and web-based game coding, yet project-level code engineering on professional game engines remains largely unexplored due to the absence of large-scale datasets and deterministic evaluation methods. We present JamSet and JamBench, the first project-level game code framework dataset and benchmark built on a professional game engine. Our key insight is that Game Jam competitions, community events where developers build complete games under tight time constraints, yield thousands of open-source projects suitable for this purpose. Building on the Godot engine's text-based format and headless execution mode, we design a deterministic verification pipeline from file integrity to runtime behavior collection, distilling 8,133 verified projects from over 240,000 repositories. Of these, 300 manually verified projects form JamBench; the rest constitute JamSet. JamBench defines theme-driven generation and code completion tasks, evaluated through a pipeline combining compilation pass rates, Structural Completeness Score (SCS), and Behavioral Alignment Score (BAS). Evaluation of 9 frontier models reveals a capability cliff as project scale increases, with runtime pass rates dropping from 80.4% on small projects to 5.7% on large ones (Task2a). Code Agents improve compilation rates yet yield no gains in runtime behavioral quality, indicating that the bottleneck lies in architectural design rather than syntactic correctness. Experiments validate JamSet as effective training data. All data and code are publicly available.
- Abstract(参考訳): 現在のAIによるゲーム開発は、アセット生成、ゲームプレイ設計、Webベースのゲームコーディングにおいてかなりの進歩を遂げているが、大規模なデータセットや決定論的評価方法が欠如しているため、プロのゲームエンジン上でのプロジェクトレベルのコードエンジニアリングはほとんど探索されていない。
プロのゲームエンジン上に構築された最初のプロジェクトレベルのゲームコードフレームワークデータセットとベンチマークであるJamSetとJamBenchを紹介します。
私たちの重要な洞察は、Game Jamコンペティションは、開発者が厳密な時間制約の下で完全なゲームを構築するコミュニティイベントであり、この目的に適した何千ものオープンソースプロジェクトを生み出します。
Godotエンジンのテキストベースのフォーマットとヘッドレス実行モードに基づいて、ファイルの完全性から実行時の動作収集までの決定論的検証パイプラインを設計し、24万以上のリポジトリから8,133の検証プロジェクトを抽出しました。
そのうち300のプロジェクトがJamBenchを形成し、残りはJamSetを構成している。
JamBench氏は、コンパイルパスレート、構造化完全性スコア(SCS)、行動整合スコア(BAS)を組み合わせたパイプラインを通じて評価される、テーマ駆動型生成とコード補完タスクを定義している。
9つのフロンティアモデルの評価では、プロジェクトの規模が拡大するにつれて、実行時のパスレートが80.4%から5.7%に低下する(Task2a)。
コードエージェントはコンパイル率を改善するが、実行時の振る舞いの品質は向上しない。
効果的なトレーニングデータとしてJamSetを検証する実験。
すべてのデータとコードは公開されています。
関連論文リスト
- GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine? [65.42976417627254]
ゲーム生成はゲームエンジン内で行われ、スクリプト、シーン、アセット、レンダリング、実行時インタラクションは共同でコヒーレントなゲームプレイを生成する必要がある。
我々は、完全なゲームアーティファクトを生成する問題として、エンド・ツー・エンドのゲーム生成を形式化する。
我々は、このフレームワークを15のゲームファミリーで140のGodotタスクからなるベンチマークであるGameCraft-Benchとしてインスタンス化する。
論文 参考訳(メタデータ) (2026-06-16T12:34:39Z) - OpenGame: Open Agentic Coding for Games [18.670337884754577]
OpenGameは、エンド・ツー・エンドのWebゲーム作成用に明示的に設計された最初のオープンソースエージェントフレームワークである。
このフレームワークを使用するGameCoder-27Bは、ゲームエンジンのマスタリングに特化したLLMコードである。
OpenGame-Benchは、Build Health、Visual Usability、Intent Alignmentに沿ってエージェントゲーム生成をスコアする評価パイプラインである。
論文 参考訳(メタデータ) (2026-04-20T15:17:03Z) - Towards Realistic Project-Level Code Generation via Multi-Agent Collaboration and Semantic Architecture Modeling [7.753074942497876]
CodeProjectEvalは、12.7ファイルと2,388.6行のタスクを持つ18の現実世界リポジトリから構築されたプロジェクトレベルのコード生成データセットである。
プロジェクトをアーキテクチャ設計、スケルトン生成、コードフィリングステージに分解するマルチエージェントフレームワークであるProjectGenを提案する。
実験によると、ProjectGenは、52/124のテストケースを小さなプロジェクトレベルのコード生成データセットDevBenchに渡すことで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-11-05T12:12:35Z) - Knowledge Graph-enhanced Large Language Model for Incremental Game PlayTesting [10.112811020571774]
本稿では,段階的なゲーム更新に適した高精度かつ効率的なテストを行うためのKLPEGフレームワークを提案する。
このフレームワークは、ゲーム要素、タスク依存、因果関係を体系的にモデル化する知識グラフ(KG)を構築し、維持する。
OvercookedとMinecraftの2つの代表的なゲーム環境での実験は、KLPEGが更新によって影響を受ける機能をより正確に特定できることを実証している。
論文 参考訳(メタデータ) (2025-11-04T12:40:46Z) - CodeClash: Benchmarking Goal-Oriented Software Engineering [63.65464283837602]
6つのアリーナで8つのLMを評価するために、1680のトーナメント(合計25,200ラウンド)を実行しました。
結果は,モデルが多様な開発スタイルを示す一方で,戦略的推論の基本的制約を共有していることを明らかにする。
私たちはCodeClashをオープンソースにして、自律的でゴール指向のコード開発の研究を進めています。
論文 参考訳(メタデータ) (2025-11-02T07:42:51Z) - DevEval: Evaluating Code Generation in Practical Software Projects [52.16841274646796]
我々はDevEvalという名の新しいベンチマークを提案し、実践プロジェクトにおける開発者の経験と一致している。
DevEvalは、119の実用的なプロジェクトから2,690のサンプルを含む厳格なパイプラインを通じて収集される。
DevEvalの5つの人気のあるLCMを評価し、コード生成における実際の能力を明らかにする。
論文 参考訳(メタデータ) (2024-01-12T06:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。