論文の概要: DeNovoSWE: Scaling Long-Horizon Environments for Generating Entire Repositories from Scratch
- arxiv url: http://arxiv.org/abs/2606.10728v2
- Date: Tue, 16 Jun 2026 03:49:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.519223
- Title: DeNovoSWE: Scaling Long-Horizon Environments for Generating Entire Repositories from Scratch
- Title(参考訳): DeNovoSWE:スクラッチからのリポジトリ生成のための長期環境のスケーリング
- Authors: Jiale Zhao, Guoxin Chen, Fanzhe Meng, Wayne Xin Zhao, Ruihua Song, Ji-Rong Wen, Kai Jia,
- Abstract要約: リポジトリ全体生成のための大規模データセットである textbfDeNovoSWE を紹介する。
DeNovoSWEは4,818の高品質なインスタンスで構成されており、各インスタンスはドキュメントから完全なリポジトリを生成する必要がある。
DeNovoSWE上の微調整Qwen3-30B-A3Bは、長期SWEのパフォーマンスを大幅に改善し、挑戦的なBeyondSWE-Doc2Repoベンチマークのスコアを5.8%から47.2%に引き上げた。
- 参考スコア(独自算出の注目度): 89.87798465720181
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the capabilities of LLM-based code agents continue to advance, their expected role is expanding beyond localized bug fixing in existing codebases toward architecting and implementing complete software repositories from high-level specifications. However, training agents for such long-horizon software engineering tasks remains difficult due to the scarcity of large-scale, verifiable whole-repository generation data. In this paper, we introduce \textbf{DeNovoSWE}, a large-scale dataset for whole-repository generation. DeNovoSWE comprises 4,818 high-quality instances, where each instance requires generating a complete repository from documentation. Our dataset is automatically constructed through a carefully designed sandboxed agentic workflow, enabling scalable curation without human annotation. DeNovoSWE is constructed with "divide and conquer" and critic-repair philosophy. To balance data quality and diversity, we further introduce a difficulty-aware trajectory filtering strategy. Fine-tuning Qwen3-30B-A3B on DeNovoSWE substantially improves long-horizon SWE performance, raising its score on the challenging BeyondSWE-Doc2Repo benchmark from 5.8% to 47.2%.
- Abstract(参考訳): LLMベースのコードエージェントの能力が進歩し続けるにつれ、彼らの期待する役割は、既存のコードベースの局所的なバグ修正を超えて、ハイレベルな仕様から完全なソフトウェアリポジトリを設計し、実装することへと拡大している。
しかし、大規模で検証可能な全リポジトリ生成データが不足しているため、このような長期ソフトウェアエンジニアリングタスクのトレーニングエージェントは依然として困難である。
本稿では,レポジトリ生成のための大規模データセットである \textbf{DeNovoSWE} を紹介する。
DeNovoSWEは4,818の高品質なインスタンスで構成されており、各インスタンスはドキュメントから完全なリポジトリを生成する必要がある。
我々のデータセットは、慎重に設計されたサンドボックス化されたエージェントワークフローによって自動的に構築され、人間のアノテーションなしでスケーラブルなキュレーションを可能にします。
DeNovoSWEは「分割と征服」と批判と修復の哲学で構築されている。
データ品質と多様性のバランスをとるために、我々はさらに難易度の高い軌道フィルタリング戦略を導入する。
DeNovoSWE上の微調整Qwen3-30B-A3Bは、長期SWEのパフォーマンスを大幅に改善し、挑戦的なBeyondSWE-Doc2Repoベンチマークのスコアを5.8%から47.2%に引き上げた。
関連論文リスト
- BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? [61.247730037229815]
BeyondSWEは2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する包括的なベンチマークです。
外部知識の役割を解明するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。
この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
論文 参考訳(メタデータ) (2026-03-03T17:52:01Z) - Immersion in the GitHub Universe: Scaling Coding Agents to Mastery [60.359983359258955]
ScaleSWEは、高品質なSWEデータを大規模に構築するために設計された、自動化されたサンドボックス化されたマルチエージェントワークフローである。
このシステムは、環境設定、テスト生成、問題記述合成のための3つの特別なエージェントをコーディネートし、5200リポジトリにわたる600万のプルリクエストを処理する。
論文 参考訳(メタデータ) (2026-02-10T15:30:19Z) - NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents [79.29376673236142]
既存のベンチマークは、完全なソフトウェアシステムを構築するのに必要な長期的能力の厳格な評価に失敗する。
符号化エージェントの長期リポジトリ生成能力を評価するために設計されたベンチマークであるNL2Repo Benchを提案する。
論文 参考訳(メタデータ) (2025-12-14T15:12:13Z) - Towards Realistic Project-Level Code Generation via Multi-Agent Collaboration and Semantic Architecture Modeling [7.753074942497876]
CodeProjectEvalは、12.7ファイルと2,388.6行のタスクを持つ18の現実世界リポジトリから構築されたプロジェクトレベルのコード生成データセットである。
プロジェクトをアーキテクチャ設計、スケルトン生成、コードフィリングステージに分解するマルチエージェントフレームワークであるProjectGenを提案する。
実験によると、ProjectGenは、52/124のテストケースを小さなプロジェクトレベルのコード生成データセットDevBenchに渡すことで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-11-05T12:12:35Z) - PlotCraft: Pushing the Limits of LLMs for Complex and Interactive Data Visualization [82.96200364977737]
PlotCraftは、1kの挑戦的な視覚化タスクを特徴とする新しいベンチマークだ。
PlotCraftは7つのハイレベルな視覚化タスクを中心に構成されており、48の異なるチャートタイプを含んでいる。
単一ターン生成と多ターン改善の両方を多種多様なタスク複雑度にわたって体系的に評価するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-10-15T10:14:39Z) - SWE-Mirror: Scaling Issue-Resolving Datasets by Mirroring Issues Across Repositories [15.458389392000706]
SWE-Mirrorは、現実世界のイシューのセマンティックセマンティクスを蒸留し、設定されたGym環境で他のレポジトリにミラーし、検証可能なイシュー解決タスクとして再認識するパイプラインである。
4つの言語にわたる40のリポジトリにSWE-Mirrorを適用することで、60,671の問題解決タスクを備えたデータセットをキュレートしました。
トレーニング後の実験は、データセットでトレーニングされたモデルが問題解決能力を改善することを示している。
論文 参考訳(メタデータ) (2025-09-10T16:15:23Z) - Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs [19.766885088032932]
ソフトウェアエンジニアリング(SWE)は、次世代のLLMエージェントにとって重要なテストベッドとして登場した。
既存のデータセットのほとんどは、わずか数千のGitHubソースインスタンスに制限されている。
SWEデータセットのボリュームと多様性の両方を体系的にスケールするインクリメンタルな自動データキュレーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-06-24T03:53:36Z) - Learning to Decompose: Hypothetical Question Decomposition Based on
Comparable Texts [65.84370471189676]
本研究は,分解型変圧器の大規模中間訓練について,比較テキストから遠ざかって検討する。
このような中間的事前学習により、多様なタスクのための堅牢な分解ベースモデルの開発がより実現可能であることを示す。
論文 参考訳(メタデータ) (2022-10-30T15:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。