論文の概要: CORE-Bench: A Comprehensive Benchmark for Code Retrieval in the Era of Agentic Coding
- arxiv url: http://arxiv.org/abs/2606.11864v1
- Date: Wed, 10 Jun 2026 09:38:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 14:26:33.757097
- Title: CORE-Bench: A Comprehensive Benchmark for Code Retrieval in the Era of Agentic Coding
- Title(参考訳): CORE-Bench: エージェントコーディング時代のコード検索のための総合ベンチマーク
- Authors: Fuwei Zhang, Yanzhao Zhang, Mingxin Li, Dingkun Long, Lexiang Hu, Pengjun Xie, Zhao Zhang, Fuzhen Zhuang,
- Abstract要約: CORE-Benchはエージェントコーディングの時代におけるコード検索のベンチマークである。
コード理解、イシュー・ツー・エグゼクティブのローカライゼーション、より広いコンテキスト検索という3つのレベルで能力を評価する。
代表的な埋め込みモデルを用いた実験は、従来のコード検索からエージェント的なコーディング設定でのコード検索への急激な低下を示している。
- 参考スコア(独自算出の注目度): 44.75033190929879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code retrieval is becoming central to coding agents, but agentic coding requires more than matching a natural-language query to an isolated snippet. Given a user request, a coding agent needs to navigate a concrete repository state, locate relevant files and functions, gather supporting context, and filter similar in-repository distractors. Existing code retrieval benchmarks mainly evaluate docstring-to-function or snippet-level matching, thereby missing this requirement-driven repository search problem. To address this gap, we introduce CORE-Bench, a comprehensive benchmark for code retrieval in the era of agentic coding. CORE-Bench evaluates code retrieval ability at three levels: code understanding, issue-to-edit localization, and broader context retrieval. Built from curated code-search tasks and SWE-bench-series instances, CORE-Bench contains over 180K queries and 106K broader-context relevance labels. Experiments with representative embedding models show a sharp drop from traditional code search to code retrieval in agentic coding settings. Simple supervised fine-tuning of existing embedding models significantly improves performance in this setting, suggesting substantial room for further progress.
- Abstract(参考訳): コード検索は、コーディングエージェントの中心となっているが、エージェントコーディングは、自然言語クエリと分離されたスニペットとのマッチング以上のものを必要としている。
ユーザの要求に応じて、コーディングエージェントは、具体的なリポジトリ状態のナビゲート、関連するファイルや関数の特定、サポートコンテキストの収集、同様のリポジトリ内イントラクタのフィルタリングが必要になる。
既存のコード検索ベンチマークはドクストリング・トゥ・ファンクション(docstring-to-function)やスニペットレベルのマッチングを主に評価する。
このギャップに対処するために,エージェントコーディングの時代にコード検索のための包括的なベンチマークであるCORE-Benchを紹介する。
CORE-Benchは、コード理解、イシュー・ツー・エジットのローカライゼーション、より広いコンテキスト検索の3つのレベルでコード検索能力を評価する。
CORE-Benchは、コード検索タスクとSWE-bench-seriesインスタンスから構築され、180K以上のクエリと106Kの広義のコンテクスト関連ラベルを含んでいる。
代表的な埋め込みモデルを用いた実験は、従来のコード検索からエージェント的なコーディング設定でのコード検索への急激な低下を示している。
既存の埋め込みモデルの教師付き微調整は、この設定における性能を著しく向上させ、さらなる進歩の余地を示唆している。
関連論文リスト
- SWE-Explore: Benchmarking How Coding Agents Explore Repositories [20.73123882302075]
SWE-benchのようなリポジトリレベルのコーディングベンチマークは、コーディングエージェントの能力の急激な急上昇を引き起こしている。
本稿では,リポジトリ探索の評価を分離するベンチマークであるSWE-Exploreを紹介する。
論文 参考訳(メタデータ) (2026-06-05T14:08:27Z) - CodeScout: An Effective Recipe for Reinforcement Learning of Code Search Agents [43.426809750160665]
標準Unix端末にしか搭載されていない符号化エージェントをトレーニングして,強靭な結果が得られることを示す。
本研究は,コード検索,報酬設計,RL最適化のための既存のコーディングエージェント環境を再利用する技術に重点を置いている。
得られたモデルファミリであるCodeScoutと、コミュニティが構築するすべてのコードとデータをリリースします。
論文 参考訳(メタデータ) (2026-03-18T15:25:42Z) - AlignCoder: Aligning Retrieval with Target Intent for Repository-Level Code Completion [55.21541958868449]
リポジトリレベルのコード補完フレームワークであるAlignCoderを提案する。
我々のフレームワークは、初期クエリとターゲットコードのセマンティックギャップを橋渡しする拡張クエリを生成する。
我々は、拡張クエリにおける推論情報を活用してより正確な検索を行うAlignRetrieverのトレーニングに強化学習を採用する。
論文 参考訳(メタデータ) (2026-01-27T15:23:14Z) - Beyond Function-Level Search: Repository-Aware Dual-Encoder Code Retrieval with Adversarial Verification [11.965887077524577]
RepoAlign-Benchは、変更要求駆動シナリオ下でリポジトリレベルのコード検索を評価するために設計された最初のベンチマークである。
そこで我々は,逆反射型デュアルトウワーアーキテクチャであるReflectCodeを提案し,このアーキテクチャは逆向きのcode_encoder と doc_encoder コンポーネントを特徴とする。
実験の結果、ReflectCodeはTop-5の精度を12.2%改善し、7.1%のリコールを実現している。
論文 参考訳(メタデータ) (2025-10-16T18:47:04Z) - RANGER -- Repository-Level Agent for Graph-Enhanced Retrieval [0.38298911754746934]
汎用自動化ソフトウェアエンジニアリング(ASE)には、コード補完、検索、修復、QA、要約といったタスクが含まれる。
これらのタスクは、コードエンティティやコードエンティティクエリに関する特定のクエリを処理できるコード検索システムを必要とする。
本稿では、両方のクエリタイプに対応するように設計されたリポジトリレベルのコード検索エージェントであるRANGERを紹介する。
論文 参考訳(メタデータ) (2025-09-27T18:57:02Z) - CodeRAG: Finding Relevant and Necessary Knowledge for Retrieval-Augmented Repository-Level Code Completion [11.329578913209623]
リポジトリレベルのコード補完は、リポジトリからのより広範な情報に基づいて、未完成のコードを自動的に予測する。
CodeRAGは、リポジトリレベルのコード補完を検索するために必要な知識を特定するためのフレームワークである。
論文 参考訳(メタデータ) (2025-09-19T15:57:40Z) - CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [52.61625841028781]
COIR(Code Information Retrieval Benchmark)は、コード検索機能を評価するために設計された、堅牢で包括的なベンチマークである。
COIRは、厳密にキュレートされた10のコードデータセットで構成され、7つの異なるドメインにまたがる8つの特有の検索タスクにまたがる。
我々は,COIRを用いた9つの広く使用されている検索モデルを評価し,最先端システムにおいても,コード検索タスクの実行に重大な困難があることを明らかにする。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。