論文の概要: From Fragments to Paths: Task-Level Context Recovery for Large Industrial Codebases
- arxiv url: http://arxiv.org/abs/2606.22906v1
- Date: Mon, 22 Jun 2026 06:44:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 03:42:10.943912
- Title: From Fragments to Paths: Task-Level Context Recovery for Large Industrial Codebases
- Title(参考訳): フラグメントからパスへ:大規模産業コードベースのためのタスクレベルコンテキスト回復
- Authors: Jiawei He, Weisong Sun, Mengyu Shi, Jie Jia, Tong Bian, Xikai Yang, Dong Sun,
- Abstract要約: 本稿では,大規模産業を対象としたタスクレベルのリポジトリ理解手法であるDeepDiscoveryを提案する。
DeepDiscoveryでは、高信頼のタスクアンカーをローカライズするために、2段階の itLocation-text-Inference フレームワークを使用している。
DeepDiscoveryを搭載したシステムは78.6%の解率を獲得し、対応するベースラインを8.2ポイント上回っている。
- 参考スコア(独自算出の注目度): 7.061933155989233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have shown strong performance on software engineering (SE) tasks, yet understanding large industrial repositories remains challenging. Existing methods often retrieve only local fragments and fail to recover the broader task-relevant context needed for complex repository-level tasks. We present DeepDiscovery, a task-level repository-understanding method for large industrial codebases. DeepDiscovery uses a two-stage \textit{Location--Inference} framework to localize high-confidence task anchors and recover broader task-relevant context over multi-relational repository structure under budget constraints. Across controlled method-level evaluation, organization-internal industrial repository-understanding scenarios, and end-to-end evaluation on SWE-bench Verified, DeepDiscovery consistently improves task-relevant file recovery and downstream SE performance. On 27 medium-scale tasks, DeepDiscovery achieves the best file recovery quality among five representative baselines without offline preprocessing. On organization-internal industrial tasks from a production-scale integrated codebase ecosystem, including 27 medium-scale tasks and 40 large-scale tasks, DeepDiscovery improves Full Recall Rate across multiple AI coding systems, with absolute gains ranging from 1.6 to 9.2 percentage points on large subprojects and from 2.5 to 7.4 percentage points on medium-scale subprojects. In a controlled end-to-end evaluation on SWE-bench Verified, a system equipped with DeepDiscovery achieves a 78.6\% Solve Rate, outperforming the corresponding baseline by 8.2 percentage points. These results suggest that stronger task-level repository understanding can improve coding-agent performance on complex SE tasks.
- Abstract(参考訳): 大規模言語モデルは、ソフトウェアエンジニアリング(SE)タスクで強いパフォーマンスを示しているが、大規模な産業リポジトリを理解することは依然として難しい。
既存のメソッドは、しばしばローカルフラグメントのみを検索し、複雑なリポジトリレベルのタスクに必要な、より広範なタスク関連コンテキストの回復に失敗する。
本稿では,大規模産業コードベースを対象としたタスクレベルのリポジトリ理解手法であるDeepDiscoveryを提案する。
DeepDiscoveryでは、高信頼のタスクアンカーをローカライズし、予算制約下でのマルチリレーショナルリポジトリ構造よりも広いタスク関連コンテキストを回復するために、2段階の‘textit{Location--Inference’フレームワークを使用している。
メソッドレベルの評価,組織内産業リポジトリの理解シナリオ,SWE-bench Verified のエンドツーエンド評価などを通じて,DeepDiscovery はタスク関連ファイルのリカバリとダウンストリーム SE のパフォーマンスを継続的に改善する。
27の中規模タスクにおいて、DeepDiscoveryはオフライン前処理なしで5つの代表ベースラインの中で最高のファイル回復品質を達成する。
27の中規模タスクと40の大規模タスクを含む、プロダクション規模の統合コードベースエコシステムからの組織内産業タスクに関して、DeepDiscoveryは、複数のAIコーディングシステムにわたるフルリコール率を改善し、大規模サブプロジェクトにおいて1.6から9.2%、中規模サブプロジェクトにおいて2.5から7.4ポイントの絶対的なゲインを達成している。
SWE-bench Verifiedのエンドツーエンド評価において、DeepDiscoveryを備えたシステムは78.6\%の解率を達成し、対応するベースラインを8.2ポイント上回る。
これらの結果は、より強力なタスクレベルのリポジトリ理解が、複雑なSEタスクにおけるコーディングエージェントのパフォーマンスを向上させることを示唆している。
関連論文リスト
- DeNovoSWE: Scaling Long-Horizon Environments for Generating Entire Repositories from Scratch [89.87798465720181]
リポジトリ全体生成のための大規模データセットである textbfDeNovoSWE を紹介する。
DeNovoSWEは4,818の高品質なインスタンスで構成されており、各インスタンスはドキュメントから完全なリポジトリを生成する必要がある。
DeNovoSWE上の微調整Qwen3-30B-A3Bは、長期SWEのパフォーマンスを大幅に改善し、挑戦的なBeyondSWE-Doc2Repoベンチマークのスコアを5.8%から47.2%に引き上げた。
論文 参考訳(メタデータ) (2026-06-09T11:37:15Z) - RepoMirage: Probing Repository Context Reasoning in Code Agents with Perturbations [51.43574078961796]
本稿では,SWE-Bench Verified上に構築された2段階評価スイートRepoMirageを紹介する。
RepoMirage-Perturbは、リポジトリレベルの摂動を保存する3つのタイプのセマンティクスを適用している。
RepoAnchorは、下流の問題解決からリポジトリの探索を分離する構造第一のプロトタイプワークフローである。
論文 参考訳(メタデータ) (2026-05-25T06:26:43Z) - HWE-Bench: Benchmarking LLM Agents on Real-World Hardware Bug Repair Tasks [3.958773019872771]
既存のベンチマークは主に、孤立したコンポーネントレベルのタスクでLarge Language Models (LLM)を評価する。
HWE-Benchは,LLMエージェントを現実のハードウェアバグ修正タスクで評価するための,最初の大規模リポジトリレベルのベンチマークである。
論文 参考訳(メタデータ) (2026-04-16T07:19:34Z) - ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development [49.63491095660809]
ProjDevBenchはエンドツーエンドのベンチマークで、コーディングエージェントにプロジェクト要件を提供し、その結果のリポジトリを評価する。
概念指向タスクと実世界のアプリケーションシナリオの両方をカバーし、8つのカテゴリにまたがる20のプログラミング問題をキュレートします。
エージェントは基本的な機能を扱うが、複雑なシステム設計、時間最適化、リソース管理に苦労する。
論文 参考訳(メタデータ) (2026-02-02T05:17:23Z) - AlignCoder: Aligning Retrieval with Target Intent for Repository-Level Code Completion [55.21541958868449]
リポジトリレベルのコード補完フレームワークであるAlignCoderを提案する。
我々のフレームワークは、初期クエリとターゲットコードのセマンティックギャップを橋渡しする拡張クエリを生成する。
我々は、拡張クエリにおける推論情報を活用してより正確な検索を行うAlignRetrieverのトレーニングに強化学習を採用する。
論文 参考訳(メタデータ) (2026-01-27T15:23:14Z) - GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging [41.754784344572286]
実際のシナリオでコードエージェントを評価するベンチマークであるGitTaskBenchをリリースしています。
各タスクは、自動化された人為的な評価ハーネスと関連するリポジトリをペアリングする。
また,エージェント性能の経済的利益を定量化するためのα値指標を提案する。
論文 参考訳(メタデータ) (2025-08-26T12:48:05Z) - SaraCoder: Orchestrating Semantic and Structural Cues for Resource-Optimized Repository-Level Code Completion [34.41683042851225]
そこで本研究では,リソース最適化検索拡張手法であるSaraCoderを提案する。
限られたコンテキストウィンドウにおいて、情報の多様性と代表性を最大化する。
我々の研究は、複数の次元にわたる検索結果を体系的に洗練することは、より正確でリソース最適化されたリポジトリレベルのコード補完システムを構築するための新しいパラダイムを提供することを証明している。
論文 参考訳(メタデータ) (2025-08-13T11:56:05Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [52.61625841028781]
COIR(Code Information Retrieval Benchmark)は、コード検索機能を評価するために設計された、堅牢で包括的なベンチマークである。
COIRは、厳密にキュレートされた10のコードデータセットで構成され、7つの異なるドメインにまたがる8つの特有の検索タスクにまたがる。
我々は,COIRを用いた9つの広く使用されている検索モデルを評価し,最先端システムにおいても,コード検索タスクの実行に重大な困難があることを明らかにする。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。