論文の概要: SWE-Explore: Benchmarking How Coding Agents Explore Repositories
- arxiv url: http://arxiv.org/abs/2606.07297v1
- Date: Fri, 05 Jun 2026 14:08:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.770049
- Title: SWE-Explore: Benchmarking How Coding Agents Explore Repositories
- Title(参考訳): SWE-Explore: コーディングエージェントがリポジトリを探索する方法のベンチマーク
- Authors: Shaoqiu Zhang, Yuhang Wang, Jialiang Liang, Yuling Shi, Wenhao Zeng, Maoquan Wang, Shilin He, Ningyuan Xu, Siyu Ye, Kai Cai, Xiaodong Gu,
- Abstract要約: SWE-benchのようなリポジトリレベルのコーディングベンチマークは、コーディングエージェントの能力の急激な急上昇を引き起こしている。
本稿では,リポジトリ探索の評価を分離するベンチマークであるSWE-Exploreを紹介する。
- 参考スコア(独自算出の注目度): 20.73123882302075
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Repository-level coding benchmarks such as SWE-bench have driven a rapid surge in the capabilities of coding agents. Yet they usually treat coding tasks as a holistic, binary prediction problem (e.g., resolved or unresolved), neglecting fine-grained agent capabilities such as repository understanding, context retrieval, code localization, and bug diagnosis. In this paper, we introduce SWE-Explore, a benchmark that isolates the evaluation of repository exploration, a critical capability of coding agents. Given a repository and an issue, SWE-Explore asks an explorer to return a ranked list of relevant code regions under a fixed line budget. SWE-Explore covers 848 issues across 10 programming languages and 203 open-source repositories. For each instance, we derive line-level ground truth from independent agent trajectories that successfully solved the same issue, distilling the specific code regions their solution paths actually consulted. We evaluate exploration along coverage, ranking, and context-efficiency dimensions, showing that these metrics strongly track downstream repair behavior. Across a broad set of retrieval methods, general coding agents, and specialized localizers, we find that agentic explorers form a clear tier above classical retrieval. While file-level localization is already strong for modern methods, line-level coverage and efficient ranking remain the key axes differentiating state-of-the-art explorers.
- Abstract(参考訳): SWE-benchのようなリポジトリレベルのコーディングベンチマークは、コーディングエージェントの能力の急激な急上昇を引き起こしている。
しかし、彼らは通常、コーディングタスクを総体的でバイナリな予測問題(例えば、解決または未解決)として扱い、リポジトリの理解、コンテキスト検索、コードのローカライゼーション、バグ診断のようなきめ細かいエージェント機能を無視します。
本稿では,リポジトリ探索の評価を分離するベンチマークであるSWE-Exploreについて紹介する。
リポジトリとイシューが与えられた場合、SWE-Exploreはエクスプローラーに、固定ライン予算の下で関連するコード領域のランクリストを返すように要求する。
SWE-Exploreは10のプログラミング言語と203のオープンソースリポジトリで848の問題をカバーしている。
それぞれのケースで、同じ問題を解決した独立したエージェントトラジェクトリからラインレベルの基底真理を導き、実際に相談したソリューションパスの特定のコード領域を蒸留します。
これらの指標は,下流の修復挙動を強く追跡することを示すとともに,調査範囲,ランキング,文脈効率の次元について検討した。
検索手法,一般符号化エージェント,特殊ローカライザの広い範囲で,エージェントエクスプローラーが古典的検索よりも明確な階層を形成していることが判明した。
ファイルレベルのローカライゼーションは現代の方法ではすでに強いが、ラインレベルのカバレッジと効率的なランク付けは、最先端のエクスプローラーを差別化するための重要な軸である。
関連論文リスト
- RepoMirage: Probing Repository Context Reasoning in Code Agents with Perturbations [51.43574078961796]
本稿では,SWE-Bench Verified上に構築された2段階評価スイートRepoMirageを紹介する。
RepoMirage-Perturbは、リポジトリレベルの摂動を保存する3つのタイプのセマンティクスを適用している。
RepoAnchorは、下流の問題解決からリポジトリの探索を分離する構造第一のプロトタイプワークフローである。
論文 参考訳(メタデータ) (2026-05-25T06:26:43Z) - Declarative Data Services: Structured Agentic Discovery for Composing Data Systems [1.8167057409188236]
宣言型データサービス(DDS)は、宣言型ユーザ意図からデータシステム構成の構造化されたエージェント発見のためのアーキテクチャである。
トレーディングバックのワークロードにおける生命の証明として、無境界の発見ができない場所で収束する。
論文 参考訳(メタデータ) (2026-05-20T04:36:40Z) - BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? [61.247730037229815]
BeyondSWEは2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する包括的なベンチマークです。
外部知識の役割を解明するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。
この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
論文 参考訳(メタデータ) (2026-03-03T17:52:01Z) - AlignCoder: Aligning Retrieval with Target Intent for Repository-Level Code Completion [55.21541958868449]
リポジトリレベルのコード補完フレームワークであるAlignCoderを提案する。
我々のフレームワークは、初期クエリとターゲットコードのセマンティックギャップを橋渡しする拡張クエリを生成する。
我々は、拡張クエリにおける推論情報を活用してより正確な検索を行うAlignRetrieverのトレーニングに強化学習を採用する。
論文 参考訳(メタデータ) (2026-01-27T15:23:14Z) - SpIDER: Spatially Informed Dense Embedding Retrieval for Software Issue Localization [6.098008057625392]
エージェントアプローチは一般的に、BM25のようなスパース検索手法や、関連するユニットを特定するための密着型埋め込み戦略を用いる。
本研究では,LLMに基づく補助的文脈に基づく推論を組み込んだ高密度検索手法であるSpIDERを提案する。
実験結果から,SpIDERは複数のプログラミング言語間の密集検索性能を一貫して向上することが示された。
論文 参考訳(メタデータ) (2025-12-18T01:32:25Z) - Improving Code Localization with Repository Memory [33.423769985220005]
本稿では,最近の過去のコミットや関連問題を含む非パラメトリックメモリからエージェントを検索するツールを紹介する。
このようなメモリの拡張により,最先端のローカライゼーションフレームワークであるLocAgentが大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-10-01T15:10:15Z) - CodeRAG: Finding Relevant and Necessary Knowledge for Retrieval-Augmented Repository-Level Code Completion [11.329578913209623]
リポジトリレベルのコード補完は、リポジトリからのより広範な情報に基づいて、未完成のコードを自動的に予測する。
CodeRAGは、リポジトリレベルのコード補完を検索するために必要な知識を特定するためのフレームワークである。
論文 参考訳(メタデータ) (2025-09-19T15:57:40Z) - SweRank: Software Issue Localization with Code Ranking [109.3289316191729]
SweRankは、ソフトウェア問題ローカライゼーションのための効率的な検索と参照のためのフレームワークである。
パブリックなGitHubリポジトリからキュレートされた大規模なデータセットであるSweLocを構築します。
SweRankは最先端の性能を達成し、従来のランキングモデルとコストの高いエージェントベースシステムの両方より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-07T19:44:09Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [52.61625841028781]
COIR(Code Information Retrieval Benchmark)は、コード検索機能を評価するために設計された、堅牢で包括的なベンチマークである。
COIRは、厳密にキュレートされた10のコードデータセットで構成され、7つの異なるドメインにまたがる8つの特有の検索タスクにまたがる。
我々は,COIRを用いた9つの広く使用されている検索モデルを評価し,最先端システムにおいても,コード検索タスクの実行に重大な困難があることを明らかにする。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - Alibaba LingmaAgent: Improving Automated Issue Resolution via Comprehensive Repository Exploration [64.19431011897515]
本稿では,問題解決のためにソフトウェアリポジトリ全体を包括的に理解し,活用するために設計された,新しいソフトウェアエンジニアリング手法であるAlibaba LingmaAgentを提案する。
提案手法では,重要なリポジトリ情報を知識グラフに凝縮し,複雑さを低減し,モンテカルロ木探索に基づく戦略を採用する。
Alibaba Cloudの製品展開と評価において、LingmaAgentは、開発エンジニアが直面した社内問題の16.9%を自動で解決し、手作業による介入で43.3%の問題を解決した。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。