論文の概要: Do programming languages still matter to your AI coding agent teammate? Evidence at scale from chess engines
- arxiv url: http://arxiv.org/abs/2606.13763v1
- Date: Thu, 11 Jun 2026 17:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.552109
- Title: Do programming languages still matter to your AI coding agent teammate? Evidence at scale from chess engines
- Title(参考訳): プログラミング言語は依然としてAIコーディングエージェントのチームメイトにとって重要か?チェスエンジンによる大規模検証
- Authors: Mathieu Acher, Jean-Marc Jézéquel,
- Abstract要約: 2つのコーディングエージェントは、チェスの知識や実装指導なしにチェスエンジンを構築するように求められた。
どちらも,チェスエンジンを中心に構築された多言語ケーススタディを通じて研究する。
我々は,エンジンごとの特徴分析,独立Elo評価,セッショントラジェクトリとコードとテキストの質的分析を組み合わせる。
- 参考スコア(独自算出の注目度): 3.272730424658043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier coding agents now promise end-to-end authorship of complete software systems. Two empirical questions follow: can AI coding-agent teammates program in any target language, including ones with no comparable prior open-source artefact? If so, does language choice still shape the artefact, and along which dimensions? We study both through a polyglot case study built around chess engines: non-trivial multi-component systems that admit a hierarchy of language-agnostic oracles, from exact move-generation correctness to a strength scale (Elo), observable from Rust to Brainfuck. We prompted two frontier agents (Claude Code and Codex) at the capability level, without chess knowledge or implementation guidance, under a documented intervention and stopping policy. The agents produced 34 chess engines spanning 17 primary programming languages, from mainstream to specialised, domain-specific, legacy, and esoteric targets. We combine per-engine feature analysis, independent Elo assessment, and session trajectories with qualitative analysis of code and transcripts. Frontier coding agents are genuinely polyglot: every language we tried produced at least one feature-rich working engine, several with no prior open-source counterpart of comparable scope (e.g., LaTeX), and the code is synthesised from scratch rather than copied. Yet language choice still matters: strong playing strength is only reachable in mainstream compiled languages, cost and engineering effort grow sharply as the language becomes more exotic, and feature choices shift across language families. Agents validate their own work unprompted, but their strength self-estimates are biased and a few engines cheated by calling a chess library. Programming language is no longer about whether AI teammates can build a working system, but about performance, cost, what gets built, and how much human supervision validation still needs.
- Abstract(参考訳): Frontierコーディングエージェントは、完全なソフトウェアシステムのエンドツーエンドのオーサリングを約束する。
AIコーディングエージェントのチームメイトは、任意のターゲット言語でプログラムできますか?
もしそうなら、言語の選択は依然としてアーティファクトを形作っていて、どの次元に沿っていますか?
我々はどちらも,チェスエンジンを中心に構築された多言語ケーススタディ(polyglot case study)を通じて研究している。言語に依存しないオラクルの階層を,RustからBrainfuckまで観測可能な正確な移動生成精度から強度スケール(Elo)まで含める,非自明な多成分システムである。
我々は、文書化された介入と停止ポリシーの下で、2つのフロンティアエージェント(Claude CodeとCodex)をチェスの知識や実装ガイダンスなしで能力レベルに誘導した。
エージェントは、メインストリームから特殊化、ドメイン固有、レガシ、難解なターゲットまで、17のプログラミング言語にまたがる34のチェスエンジンを作成した。
我々は,エンジンごとの特徴分析,独立Elo評価,セッショントラジェクトリとコードとテキストの質的分析を組み合わせる。
私たちが試したすべての言語は、少なくとも1つの機能豊富なワーキングエンジンを生成し、いくつかは、同等のスコープ(例:LaTeX)に匹敵する、以前のオープンソースではない。
しかし、言語の選択は依然として重要であり、主流のコンパイル言語では強力なプレイの強さが到達可能であること、言語がよりエキゾチックになるにつれて、コストとエンジニアリングの努力が急激に増加し、言語家族間で機能の選択がシフトする。
エージェントは自分の仕事を証明していないが、その強さは偏りがあり、いくつかのエンジンはチェスライブラリーを呼ぶことで不正になっている。
プログラム言語はもはや、AIチームメイトが動作するシステムを構築することができるかどうかではなく、パフォーマンス、コスト、何が構築されるのか、そして人間の監督の検証に必要な量についてである。
関連論文リスト
- Large Language Models for Multilingual Code Intelligence: A Survey [15.859504186659825]
この調査では、共通自然言語要求からの多言語コード生成と、言語間のセマンティクスを保存する多言語コード翻訳という2つの重要なタスクに焦点を当てた。
代表的な手法、ベンチマーク、評価指標をレビューし、信頼できる言語間の一般化の課題と機会を強調している。
論文 参考訳(メタデータ) (2026-04-27T20:20:26Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.1875460416205]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
CodeGRAGは、制御フローとそれらのデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミングドメインの知識をよりよく解釈する。
CodeGRAGはLLMのコード生成能力を大幅に改善し、言語間コード生成のパフォーマンス向上も実現している。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - Agents: An Open-source Framework for Autonomous Language Agents [98.91085725608917]
我々は、言語エージェントを人工知能への有望な方向と見なしている。
Agentsはオープンソースライブラリで、これらの進歩を広く非専門的な聴衆に開放することを目的としています。
論文 参考訳(メタデータ) (2023-09-14T17:18:25Z) - From Copilot to Pilot: Towards AI Supported Software Development [3.0585424861188844]
我々は、CopilotのようなAIをサポートするコード補完ツールの限界を研究し、この分野でAIをサポートするコード補完ツールの分類を理解するための分類を提供する。
次に、CopilotのようなAIをサポートするコード補完ツールの現在の境界を決定するために、さらなる調査を行います。
我々は、私たちの分類学における設計レベルの抽象化に到達するために、AIをサポートするコード補完ツールの今後の開発に関する課題について、議論することで締めくくります。
論文 参考訳(メタデータ) (2023-03-07T18:56:52Z) - xCodeEval: A Large Scale Multilingual Multitask Benchmark for Code
Understanding, Generation, Translation and Retrieval [32.60391966381949]
我々はこれまでで最大のマルチ言語マルチタスクベンチマークであるxCodeEvalを紹介した。
コード理解、生成、翻訳、検索を含む合計7ドルのタスクが特徴だ。
xCodeEvalは実行ベースの評価を採用し、多言語コード実行エンジンであるExecEvalを提供する。
論文 参考訳(メタデータ) (2023-03-06T10:08:51Z) - Unsupervised Translation of Programming Languages [19.56070393390029]
ソース・トゥ・ソース(source-to-source)またはトランスコンパイラ(transcompiler)は、ソースコードをハイレベルなプログラミング言語から別のプログラミング言語に変換するシステムである。
私たちは、オープンソースのGitHubプロジェクトからソースコードでモデルをトレーニングし、C++、Java、Python間の関数を高い精度で翻訳できることを示しています。
論文 参考訳(メタデータ) (2020-06-05T15:28:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。