論文の概要: Frontier Coding Agents Use Metaprogramming to Adapt to Unfamiliar Programming Languages
- arxiv url: http://arxiv.org/abs/2606.10933v1
- Date: Tue, 09 Jun 2026 14:44:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.556528
- Title: Frontier Coding Agents Use Metaprogramming to Adapt to Unfamiliar Programming Languages
- Title(参考訳): Frontierのコーディングエージェントはメタプログラミングを使って不慣れなプログラミング言語に適応する
- Authors: Aman Sharma, Sushrut Thorat, Paras Chopra,
- Abstract要約: 我々は4つの難解なプログラミング言語上で6つの現代の符号化エージェントを評価する。
最強のエージェントである Claude Opus 4.6 と GPT-5.4 xhigh は、しばしばターゲット言語を直接書くことを避けている。
- 参考スコア(独自算出の注目度): 4.779196219827507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based coding agents are usually evaluated in familiar software settings: mainstream languages, common libraries, and public repositories. These benchmarks remain important, but they can hide how agents behave when the language itself is unfamiliar. We evaluate six contemporary coding agents on four esoteric programming languages using a sequential setup with file editing, local execution, and hidden-test grading. Our protocol exposes capability differences between these agents that mainstream coding and agentic benchmarks such as SWE-Bench Verified and Terminal-Bench 2.0 compress into much narrower bands. We observe that the strongest agents, Claude Opus 4.6 and GPT-5.4 xhigh, often avoid writing the target language directly. On Brainfuck and Befunge-98, they write Python programs that generate target-language code and debug those generators locally. Forbidding this metaprogramming strategy causes large performance drops. Text guidance distilled from this strategy does not materially improve weaker agents. In contrast, Opus-derived Python helper code for building generators, with no solved benchmark programs or hidden-test answers, sharply improves Sonnet 4.6 and GPT-5.4 mini on the same problems, while Haiku 4.5 remains low. More interpreter calls and output tokens improve stronger agents but leave weaker agents near their original performance, indicating that these resources amplify useful strategies rather than create them. Together, these results show that strong coding agents adapt to unfamiliar languages by using tools, feedback, and workspace state to build a working model of the target language. Metaprogramming is the clearest case, but the broader gap is constructing and debugging a strategy that works under the target language's rules.
- Abstract(参考訳): LLMベースのコーディングエージェントは通常、一般的な言語、共通ライブラリ、パブリックリポジトリといった、よく知られたソフトウェア設定で評価される。
これらのベンチマークは依然として重要であるが、言語自体が馴染みのないときにエージェントがどのように振る舞うかを隠すことができる。
そこで我々は,ファイル編集,ローカル実行,隠蔽テストのグレーディングを含む逐次設定を用いて,4つの難解なプログラミング言語上の6つの現代の符号化エージェントを評価した。
提案プロトコルは,SWE-Bench Verified や Terminal-Bench 2.0 などのエージェントベンチマークを,より狭い帯域に圧縮する手法である。
最強のエージェントである Claude Opus 4.6 と GPT-5.4 xhigh は、しばしばターゲット言語を直接書くことを避けている。
BrainfuckとBefunge-98では、ターゲット言語コードを生成し、それらのジェネレータをローカルにデバッグするPythonプログラムを記述している。
このメタプログラミング戦略の禁止は、大きなパフォーマンス低下を引き起こす。
この戦略から抽出したテキストガイダンスは、より弱い剤を実質的に改善しない。
対照的に、Opusから派生したジェネレータのためのPythonヘルパーコードは、解決されたベンチマークプログラムや隠れテストの答えがないため、同じ問題に対してSonnet 4.6とGPT-5.4 miniが大幅に改善され、Haiku 4.5は依然として低いままである。
より多くのインタプリタ呼び出しと出力トークンは、より強力なエージェントを改善するが、元のパフォーマンスの近くに弱いエージェントを残し、これらのリソースがそれらを作成するよりも有用な戦略を増幅することを示している。
これらの結果は、強力なコーディングエージェントがツール、フィードバック、ワークスペース状態を使用して、対象言語の動作モデルを構築することで、慣れていない言語に適応することを示す。
メタプログラミングは最も明確なケースですが、より広いギャップは、ターゲット言語のルールの下で機能する戦略の構築とデバッギングです。
関連論文リスト
- CangjieBench: Benchmarking LLMs on a Low-Resource General-Purpose Programming Language [10.19354135187181]
我々は,低リソース汎用言語であるCangjieの汚染のないベンチマークであるCangjieBenchを紹介する。
ベンチマークは、HumanEvalとClassEvalから手作業で翻訳された248の高品質なサンプルで構成されている。
実験の結果、ダイレクトジェネレーションは性能が悪く、シンタクス制約ジェネレーションは精度と計算コストの最良のトレードオフを提供することがわかった。
論文 参考訳(メタデータ) (2026-03-15T17:35:03Z) - Bridging the Knowledge Void: Inference-time Acquisition of Unfamiliar Programming Languages for Coding Tasks [22.908904483320953]
コーディングタスクにおけるLarge Language Models (LLM) は、しばしばその広範な事前学習コーパスの反映である。
動作プリミティブのセットをLCMに装備する一般のIRAフレームワークであるIRAエージェントを提案する。
我々は,Cangjie 用の ILA エージェントをインスタンス化し,コード生成,翻訳,プログラム修復タスクのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2026-01-16T09:06:47Z) - Lost in Execution: On the Multilingual Robustness of Tool Calling in Large Language Models [5.6688028729584055]
大規模言語モデル(LLM)は、構造化関数呼び出しを通じて外部ツールを呼び出すエージェントとして、ますます多くデプロイされている。
診断ベンチマークであるMLCLを導入し,中国語,ヒンディー語,低リソース言語Igboを対象とした多言語ツールコールの体系的評価を行う。
論文 参考訳(メタデータ) (2026-01-08T20:44:28Z) - BabelCoder: Agentic Code Translation with Specification Alignment [7.64108921132755]
本稿では,BabelCoderについて紹介する。BabelCoderは,タスクを特殊なエージェントに分解して,翻訳,テスト,洗練を行うためのエージェントフレームワークである。
BabelCoderは94%のケースで既存のメソッドを0.5%-13.5%上回り、平均精度は94.16%である。
論文 参考訳(メタデータ) (2025-12-07T15:57:54Z) - Agents: An Open-source Framework for Autonomous Language Agents [98.91085725608917]
我々は、言語エージェントを人工知能への有望な方向と見なしている。
Agentsはオープンソースライブラリで、これらの進歩を広く非専門的な聴衆に開放することを目的としています。
論文 参考訳(メタデータ) (2023-09-14T17:18:25Z) - Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization [103.70896967077294]
本稿では,レトロスペクティブモデルを学習することで,大規模言語エージェントを強化するための原則的枠組みを提案する。
提案するエージェントアーキテクチャは,事前学習した言語モデルを微調整するために,複数の環境やタスクにまたがる報酬から学習する。
様々なタスクの実験結果から、言語エージェントは時間とともに改善することが示された。
論文 参考訳(メタデータ) (2023-08-04T06:14:23Z) - Unsupervised Translation of Programming Languages [19.56070393390029]
ソース・トゥ・ソース(source-to-source)またはトランスコンパイラ(transcompiler)は、ソースコードをハイレベルなプログラミング言語から別のプログラミング言語に変換するシステムである。
私たちは、オープンソースのGitHubプロジェクトからソースコードでモデルをトレーニングし、C++、Java、Python間の関数を高い精度で翻訳できることを示しています。
論文 参考訳(メタデータ) (2020-06-05T15:28:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。