論文の概要: SHERLOC: Structured Diagnostic Localization for Code Repair Agents
- arxiv url: http://arxiv.org/abs/2606.24820v1
- Date: Tue, 23 Jun 2026 17:05:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.110112
- Title: SHERLOC: Structured Diagnostic Localization for Code Repair Agents
- Title(参考訳): SHERLOC:コード修復剤の組織的診断局在化
- Authors: Hovhannes Tamoyan, Sean Narenthiran, Erik Arakelyan, Mira Mezini, Boris Ginsburg,
- Abstract要約: SHERLOCは,コンパクトなリポジトリツールと自己回復機能を備えた推論LDMをペアリングする,トレーニング不要のフレームワークである。
SWE-Bench Liteでは84.33%の精度@1、SWE-Bench Verifiedでは81.27%のリコール@1である。
- 参考スコア(独自算出の注目度): 33.35079971033214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents solve repository-level coding tasks through multi-turn tool use, but utilize half their budget on locating faults before editing. Dedicated localization frameworks have emerged, yet are still evaluated as file retrieval rather than actionable diagnosis, producing locations without the diagnostic context a repair agent needs. We introduce SHERLOC (Structured Hypothesis-driven Exploration and Reasoning for Localization), a training-free framework pairing a reasoning LLM with compact repository tools and self-recovery, without fine-tuning or multi-agent orchestration. SHERLOC reaches state-of-the-art localization across model scales: 84.33% accuracy@1 on SWE-Bench Lite and 81.27% recall@1 on SWE-Bench Verified; at ~30B parameters, it matches or outperforms other agentic methods. Injecting our locations and diagnostic findings into repair agents yields, on average, +5.95 pp resolve rate on SWE-Bench Verified while cutting localization and total tokens by 36.7% and 23.1%.
- Abstract(参考訳): LLMエージェントは、マルチターンツールの使用によってリポジトリレベルのコーディングタスクを解決するが、編集前に障害の特定に予算の半分を利用する。
専用ローカライゼーションフレームワークが登場したが、それでも動作可能な診断ではなくファイル検索として評価され、修復業者が必要とする診断コンテキストなしでロケーションを生成する。
SHERLOC(Structured hypothesis-driven Exploration and Reasoning for Localization)は,マイクロチューニングやマルチエージェントオーケストレーションを伴わずに,コンパクトなレポジトリツールと自己回復機能を備えた学習自由フレームワークである。
SWE-Bench Liteの84.33%の精度@1、SWE-Bench Verifiedの81.27%のリコール@1。
我々の位置と診断所見を修復剤に注入すると、SWE-Benchの正解率は平均+5.95ppであり、局所化と全トークンを36.7%、23.1%削減する。
関連論文リスト
- Probe-and-Refine Tuning of Repository Guidance for Coding Agents [0.0]
LLMベースのコーディングエージェントは、リポジトリに関するより高度な運用知識を必要とする。
近年の研究では, LLMによる誘導がエージェント性能に悪影響を及ぼすか否かが議論されている。
本稿では,その指導方法が決定変数であることを示す。
論文 参考訳(メタデータ) (2026-06-18T17:30:15Z) - Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories [51.22051230894794]
最終回答に基づく評価は、エージェントが成功するかどうかを示すが、どの部分の軌道が答えを信頼できないかを示すものではない。
2つのエージェントフレームワーク、3つのバックボーンモデル、3つのベンチマークから2,790の実際のトラジェクトリを収集し、生ログをセマンティックスパンに変換し、エキスパートレビューを通じて有害なエラースパンを注釈付けします。
我々は,エージェントの主張を追跡するクレーム中心の監査フレームワークであるDRIFTを提案する。
論文 参考訳(メタデータ) (2026-06-01T10:50:26Z) - BLAgent: Agentic RAG for File-Level Bug Localization [2.2917707112773593]
BLAgentはファイルレベルのバグローカライゼーションのための新しいエージェントRAGフレームワークである。
BLAgentは、オープンソースモデルで78%以上のTop-1精度を達成した。
BLAgentは、エンドツーエンドの修復の成功を20%以上改善する。
論文 参考訳(メタデータ) (2026-05-18T07:20:13Z) - Clover: A Neural-Symbolic Agentic Harness with Stochastic Tree-of-Thoughts for Verified RTL Repair [5.67664197679672]
Cloverは、コード操作に関する構造化された検索としてRTL修復をオーケストレーションし、バグに対する検証済みのソリューションを探索する。
Cloverは96.8%のバグを固定時間内に修正し、従来のLLMベースのベースラインよりも94%と63%多いバグをカバーしている。
論文 参考訳(メタデータ) (2026-04-19T07:04:49Z) - SGAgent: Suggestion-Guided LLM-Based Multi-Agent Framework for Repository-Level Software Repair [22.745971570878435]
本稿では,リポジトリレベルのソフトウェア修復のためのSuggestion-Guided Multi-Agentフレームワークを提案する。
SGAgentは、局所化から修復への移行を強化するための提案段階を導入する。
3つの専門のサブエージェントが協力して、エンドツーエンドのソフトウェアの自動修復を実現します。
論文 参考訳(メタデータ) (2026-02-27T03:32:47Z) - Reformulate, Retrieve, Localize: Agents for Repository-Level Bug Localization [2.4063592468412276]
大規模なソフトウェアリポジトリでは、バグのローカライゼーションは依然として重要な課題ですが、時間がかかります。
大規模言語モデル(LLM)の最近の進歩は、クエリのリフォームによってバグのローカライゼーションを改善している。
本研究では,LLMを利用したエージェントが,軽量なクエリ再構成と要約によってファイルレベルのバグローカライズを改善する方法について検討する。
論文 参考訳(メタデータ) (2025-12-07T22:25:11Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Alita-G: Self-Evolving Generative Agent for Agent Generation [54.49365835457433]
汎用エージェントをドメインエキスパートに変換するフレームワークであるALITA-Gを提案する。
このフレームワークでは、ジェネラリストエージェントが対象ドメインタスクのキュレートされたスイートを実行する。
計算コストを削減しながら、大きな利益を得ることができます。
論文 参考訳(メタデータ) (2025-10-27T17:59:14Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。