論文の概要: CodeAlchemy: Synthetic Code Rewriting at Scale
- arxiv url: http://arxiv.org/abs/2606.10087v1
- Date: Mon, 08 Jun 2026 19:15:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.146153
- Title: CodeAlchemy: Synthetic Code Rewriting at Scale
- Title(参考訳): CodeAlchemy: 大規模なコード書き換え
- Authors: Ankit Gupta, Aditya Prasad, Rameswar Panda,
- Abstract要約: 私たちは、公開ソースコードを意味豊かなトレーニングデータに変換するフレームワークであるCodeAlchemyを紹介します。
我々は15言語にまたがる3つのコーパスを処理し、500B以上の合成データのトークンと350Bの推論トークンを生成する。
CodeTraceは14の言語と5Kライブラリにまたがる1.3M以上のファイルを実行し、制御フロー、状態追跡、ライブラリの知識をキャプチャする。
- 参考スコア(独自算出の注目度): 18.89851727350116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training on raw code teaches syntax but provides sparse signal for diverse real-world task formats. While synthetic data has proven transformative for language models, code remains largely unexplored beyond limited quality improvements. We present CodeAlchemy, a synthetic data generation framework that transforms publicly sourced code into semantically-rich training data through 5 strategies: CodeEnhance (quality-aware rewriting), CodeQA (template-based problems), CodeDev (developer tasks), CodeDialogue (multi-turn conversations), and CodeTrace (execution traces). We process 3 corpora across 15 languages to generate 500B+ tokens of synthetic data plus 350B reasoning tokens, orders of magnitude more than prior efforts. CodeTrace instruments and executes 1.3M+ files across 14 languages and 5K libraries, capturing control flow, state tracking, and library knowledge. We introduce DevEval (developer tasks) and TraceEval (execution prediction) benchmarks; frontier models like Claude Sonnet 4.5 achieve only 5.6% exact match on TraceEval, revealing critical gaps in semantic understanding. Our 3B models achieve 83.5% on HumanEval, 63.2% on MBPP, 8.09% win rate on DevEval, and 15.36 ROUGE-2 on TraceEval, outperforming frontier models 10x the size including 27B Gemma-3 and 32B Granite-4.0.
- Abstract(参考訳): 生のコードの事前トレーニングは構文を教えるが、様々な現実世界のタスクフォーマットに対してスパース信号を提供する。
合成データは言語モデルにとってトランスフォーメーションであることが証明されているが、コードはほとんど探索されていない。
CodeEnhance(品質認識の書き換え)、CodeQA(テンプレートベースの問題)、CodeDev(開発者タスク)、CodeDialogue(マルチターン会話)、CodeTrace(実行トレース)の5つの戦略を通じて、公開ソースコードを意味豊かなトレーニングデータに変換する合成データ生成フレームワークであるCodeAlchemyを紹介した。
我々は15言語にまたがる3つのコーパスを処理し、500B以上の合成データのトークンと350Bの推論トークンを生成します。
CodeTraceは14の言語と5Kライブラリにまたがる1.3M以上のファイルを計測し、実行し、制御フロー、状態追跡、ライブラリの知識をキャプチャする。
我々は、DevEval(開発者タスク)とTraceEval(実行予測)ベンチマークを導入し、Claude Sonnet 4.5のようなフロンティアモデルは、TraceEvalの正確なマッチを5.6%しか達成しておらず、セマンティック理解における重要なギャップを明らかにしている。
我々の3Bモデルは、HumanEvalで83.5%、MBPPで63.2%、DevEvalで8.09%、TraceEvalで15.36 ROUGE-2を達成し、27B Gemma-3と32B Granite-4.0を含むフロンティアモデルよりも10倍高い。
関連論文リスト
- IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - SemCoder: Training Code Language Models with Comprehensive Semantics Reasoning [24.93484793667691]
本稿では,静的テキストデータへのコードLLMの依存と意味理解の必要性のギャップを埋めることを目的としている。
包括的意味論を推論するために、コードLLMを訓練するための新しい戦略であるモノローグ推論を導入する。
我々は、コード生成および実行推論タスクにおいて、GPT-3.5-turboと競合する性能を示す、たった6.7BパラメータのコードLLMであるSemCoderを開発した。
論文 参考訳(メタデータ) (2024-06-03T05:36:57Z) - CodeShell Technical Report [23.741490720927068]
8Kコンテキスト長の基盤モデルであるCodeShell-Baseを提案する。
GitHubから1000億の高品質の事前トレーニングデータをキュレートしました。
高品質のデータから得られるCodeShell-Baseは、わずか500億のトークン(5エポック)でトレーニングした後、HumanevalのCodeLlamaを上回った
論文 参考訳(メタデータ) (2024-03-23T07:29:41Z) - StarCoder 2 and The Stack v2: The Next Generation [105.93298676368798]
私たちは3.3から4.3兆のトークンで3B、7B、15BパラメータでStarCoder2モデルをトレーニングします。
我々は、それらをCode LLMベンチマークの包括的なセットで徹底的に評価する。
私たちの大きなモデルであるStarCoder2-15Bは、同等の大きさの他のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-29T13:53:35Z) - BioCoder: A Benchmark for Bioinformatics Code Generation with Large Language Models [27.772192759716116]
バイオインフォマティクス固有のコードを生成する際に,大規模言語モデル(LLM)を評価するために開発されたベンチマークであるBioCoderを提案する。
BioCoderは、ファイル間の依存関係、クラス宣言、グローバル変数を含む、フィールドの大部分にまたがる。
本報告では, 包含コード全体の網羅範囲がバイオインフォマティクス計算の完全なスペクトルであることを示す。
論文 参考訳(メタデータ) (2023-08-31T04:52:58Z) - AI-assisted Code Authoring at Scale: Fine-tuning, deploying, and mixed
methods evaluation [9.915327592560896]
我々は、Metaで開発およびデプロイされたAI支援コードオーサリングツールであるCodeComposeを紹介する。
CodeComposeは、生成能力を双方向にマージするInCoder LLMに基づいている。
20Kのソースコードファイルのランダムなサンプルでは、40%から58%の時間で隠れた行を再現することができ、公開データのみに基づいてトレーニングされたモデルよりも1.4xと4.1xが改善された。
論文 参考訳(メタデータ) (2023-05-20T00:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。