論文の概要: CodeTeam: An LLM-Powered Multi-Agent Framework for Repository-Level Code Generation
- arxiv url: http://arxiv.org/abs/2606.22082v1
- Date: Sat, 20 Jun 2026 14:57:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 21:48:11.10012
- Title: CodeTeam: An LLM-Powered Multi-Agent Framework for Repository-Level Code Generation
- Title(参考訳): CodeTeam: リポジトリレベルのコード生成のためのLLMベースのマルチエージェントフレームワーク
- Authors: Yifei Wang, Ruiyin Li, Peng Liang, Qiong Feng, Zengyang Li, Mojtaba Shahin, Arif Ali Khan,
- Abstract要約: 自然言語からリポジトリ生成(NL2Repo)は、自然言語要求文書からソフトウェアリポジトリ全体を構築するシステムを必要とする。
計画、意思決定、実装を別々に調整した段階に分離するフレームワークであるCodeTeamを提案する。
その結果,SketchBLEUの改善には,プロジェクト固有の開発者アロケーションと検索拡張計画が大きく貢献していることがわかった。
- 参考スコア(独自算出の注目度): 12.333481527668326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language to repository generation (NL2Repo) requires a system to construct an entire software repository from a natural-language requirements document. Compared with function-level code generation, this task demands longer planning horizons, stable interfaces across files, and iterative debugging of cross-file inconsistencies. To address these challenges, we propose CodeTeam, an LLM-based multi-agent framework that separates planning, decision making, and implementation into distinct, coordinated stages. In the planning stage, multiple Architect agents draft competing software design sketches (SDS), optionally grounded by retrieved design references. A CTO agent then evaluates, selects, and normalizes the most promising SDS into a machine-checkable contract that specifies file ownership, public interfaces, and dependency constraints. In the implementation stage, Developer agents generate code under a dependency-aware scheduler with bounded context and lightweight Git-based coordination, while a QA agent runs tests and drives iterative repairs. On the synthesis-based SketchEval benchmark, we explicitly compare CodeTeam's prompt-engineering (PE) and supervised fine-tuning (SFT) variants with the corresponding CodeS variants, where CodeTeam improves the overall SketchBLEU by 4.1 and 2.9 absolute points, respectively. On the execution-based NL2Repo-Bench benchmark, used as an external validation protocol, CodeTeam achieves the highest average test pass rate in both settings (34.6% PE, 42.3% SFT), confirming that the sketch-improvements extend to functional correctness under upstream test suites. Ablation results show that project-specific developer allocation and retrieval-augmented planning each contribute substantially to the SketchBLEU improvement (9.9% and 8.1% relative, respectively). CodeTeam and the experimental results are available at https://github.com/WhitenWhiten/CodeTeam
- Abstract(参考訳): 自然言語からリポジトリ生成(NL2Repo)は、自然言語要求文書からソフトウェアリポジトリ全体を構築するシステムを必要とする。
関数レベルのコード生成と比較して、このタスクはより長い計画の水平線、ファイル間の安定したインターフェース、ファイル間の一貫性の反復的なデバッグを必要とする。
これらの課題に対処するため、我々は、計画、意思決定、実装を別々の調整段階に分離するLLMベースのマルチエージェントフレームワークであるCodeTeamを提案する。
計画段階では、複数のアーキテクトエージェントが競合するソフトウェアデザインスケッチ(SDS)をドラフトします。
CTOエージェントは、ファイルの所有権、公開インターフェース、依存関係の制約を指定するマシンチェック可能なコントラクトに、最も有望なSDSを評価し、選択し、標準化する。
実装段階では、Developer Agentはコンテキスト境界と軽量なGitベースのコーディネーションを備えた依存性対応スケジューラの下でコードを生成し、QAエージェントはテストを実行して反復的な修正を実行する。
合成ベースのSketchEvalベンチマークでは、CodeTeamのプロンプトエンジニアリング(PE)と教師付き微調整(SFT)の変種を対応するCodeSの変種と比較し、CodeTeamはSketchBLEU全体の4.1と2.9の絶対点をそれぞれ改善した。
外部検証プロトコルとして使用される実行ベースのNL2Repo-Benchベンチマークでは、CodeTeamは両方の設定で平均テストパス率(34.6% PE、42.3% SFT)を達成した。
アブレーションの結果、プロジェクト固有の開発者割り当てと検索強化計画がSketchBLEUの改善に大きく貢献している(それぞれ9.9%と8.1%)。
CodeTeamと実験結果はhttps://github.com/WhitenWhiten/CodeTeamで公開されている。
関連論文リスト
- SWE-Adept: An LLM-Based Agentic Framework for Deep Codebase Analysis and Structured Issue Resolution [9.339988760379915]
大規模言語モデル(LLM)は、自己完結したタスクに対して強いパフォーマンスを示す。
SWE-Adeptは、ローカライズエージェントが問題関連コードの位置を特定し、解決エージェントが対応する修正を実装するフレームワークである。
SWE-Bench Lite と SWE-Bench Pro の実験は、SWE-Adept が問題ローカライゼーションと解決の両方において、従来のアプローチよりも一貫して優れていることを示した。
論文 参考訳(メタデータ) (2026-03-01T23:52:30Z) - CktEvo: Repository-Level RTL Code Benchmark for Design Evolution [7.09459001862514]
本稿では、レポレベルのRTL進化のためのベンチマークおよび参照フレームワークであるCktEvoを紹介する。
以前のベンチマークとは異なり、我々のベンチマークは、PPAがファイル間の依存関係から現れる完全なIPコアをターゲットにしています。
初期リポジトリが与えられたら、PPAを改善しながら機能的な動作を保存する編集を生成します。
実験の結果, 参照フレームワークは人間のインタラクションを伴わずに, PPAの改善を実現していることがわかった。
論文 参考訳(メタデータ) (2026-02-10T02:46:15Z) - ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development [49.63491095660809]
ProjDevBenchはエンドツーエンドのベンチマークで、コーディングエージェントにプロジェクト要件を提供し、その結果のリポジトリを評価する。
概念指向タスクと実世界のアプリケーションシナリオの両方をカバーし、8つのカテゴリにまたがる20のプログラミング問題をキュレートします。
エージェントは基本的な機能を扱うが、複雑なシステム設計、時間最適化、リソース管理に苦労する。
論文 参考訳(メタデータ) (2026-02-02T05:17:23Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - CodePlan: Repository-level Coding using LLMs and Planning [5.987469779811903]
私たちは、リポジトリレベルのコーディングを計画上の問題として捉え、CodePlanと呼ばれるタスクに依存しないフレームワークを提示します。
パッケージマイグレーション(C#)と時間コード編集(Python)の2つのリポジトリレベルタスクにおけるCodePlanの有効性を評価する。
以上の結果から,CodePlanはベースラインよりも真実と一致していることがわかった。
論文 参考訳(メタデータ) (2023-09-21T21:45:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。