論文の概要: Probe-and-Refine Tuning of Repository Guidance for Coding Agents
- arxiv url: http://arxiv.org/abs/2606.20512v2
- Date: Fri, 19 Jun 2026 10:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-23 13:41:31.044683
- Title: Probe-and-Refine Tuning of Repository Guidance for Coding Agents
- Title(参考訳): コーディングエージェント用レポジトリガイダンスのプローブ・アンド・リファインチューニング
- Authors: Asa Shepard, Jeannie Albrecht,
- Abstract要約: LLMベースのコーディングエージェントは、リポジトリに関するより高度な運用知識を必要とする。
近年の研究では, LLMによる誘導がエージェント性能に悪影響を及ぼすか否かが議論されている。
本稿では,その指導方法が決定変数であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based coding agents need higher-level operational knowledge about a repository (which files house which subsystems, how to run the test suite, which workflows have historically led to wrong fixes) that does not exist in the code itself. Engineers typically maintain AGENTS.md files to supply this context as instructions for coding agents, but whether they help is contested: recent studies disagree on whether LLM-generated guidance improves or harms agent performance. In this paper we show that how the guidance is produced is the decisive variable, and introduce probe-and-refine tuning: a procedure that uses synthetic bug-fix probes to iteratively diagnose and patch a repository's guidance file through single-shot LLM calls, with no agent loop or tool use during tuning. On SWE-bench Verified across four independent trials with Qwen3.5-35B-A3B at 200 steps, probe-and-refine achieves 33.0% mean resolve rate vs. 28.3% for the static knowledge base used to initialize it and 25.5% for an unguided baseline (p < 0.001 for both probe-and-refine contrasts). The improvement comes from coverage rather than precision: refined guidance produces evaluable patches for 14.5 percentage points (pp) more instances while per-patch precision remains statistically constant (~59%, p = 0.119), showing that improved guidance helps agents reach the correct file rather than improving the quality of the changes they make. Further, a step-budget experiment shows that guidance is what lets the agent use a larger step budget productively, and a cross-model experiment with NVIDIA-Nemotron-3-Nano-30B-A3B finds that the tuning loop degrades when the model cannot generate sufficiently diagnostic output, though per-patch precision remains constant even then.
- Abstract(参考訳): LLMベースのコーディングエージェントは、リポジトリ(どのサブシステム、どのようにテストスイートを実行するか、ワークフローが歴史的に間違った修正を導いたか)について、コード自体にはない、より高度な運用知識を必要とする。
エンジニアは通常、このコンテキストをコーディングエージェントの指示として提供するために AgentS.md ファイルを保守するが、それらが助けになるかどうかは議論されている。
本稿では,このガイダンスが決定的な変数であることを示すとともに,プローブ・アンド・リファイン・チューニングの導入について述べる。これは,合成バグ修正プローブを用いて,単一ショットLPM呼び出しによるリポジトリのガイダンスファイルを反復的に診断・パッチし,チューニング中にエージェントループやツールを使用せずに行う手順である。
200段階のQwen3.5-35B-A3Bによる4つの独立した試験で検証されたSWE-benchでは、プローブ・アンド・リファインドは平均分解率33.0%、初期化に使用される静的知識ベースは28.3%、未ガイドベースラインは25.5%である(プローブ・アンド・リファインコントラストはp < 0.001)。
改良されたガイダンスは、14.5ポイント (pp) 以上のインスタンスに対して評価可能なパッチを生成する一方で、パッチごとの精度は統計的に一定 (~59%, p = 0.119) であり、改善されたガイダンスは変更の質を改善するのではなく、エージェントが正しいファイルに到達するのに役立つことを示している。
NVIDIA-Nemotron-3-Nano-30B-A3Bを用いたクロスモデル実験では、モデルが十分な診断出力を生成できない場合にチューニングループが劣化するが、パッチごとの精度は一定である。
関連論文リスト
- From Patches to Trajectories: Privileged Process Supervision for Software-Engineering Agents [56.31499185764872]
教師の長い軌道上の監督された微調整(SFT)は、オープンソフトウェアエンジニアリング(SWE)エージェントに調査と推論を浸透させる主要な方法である。
本稿では,P2T (Patches-to-Trajectories) を提案する。P2T (Patches-to-Trajectories) は,P2T (Patches-to-Trajectories) において,P2T (Patches-to-Trajectories) とP2T (Patches-to-Trajectories) の2つの最適化法である。
論文 参考訳(メタデータ) (2026-05-21T04:54:55Z) - BLAgent: Agentic RAG for File-Level Bug Localization [2.2917707112773593]
BLAgentはファイルレベルのバグローカライゼーションのための新しいエージェントRAGフレームワークである。
BLAgentは、オープンソースモデルで78%以上のTop-1精度を達成した。
BLAgentは、エンドツーエンドの修復の成功を20%以上改善する。
論文 参考訳(メタデータ) (2026-05-18T07:20:13Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Needle in the Repo: A Benchmark for Maintainability in AI-Generated Repository Edits [3.9532936038777144]
Needle in the Repo (NITR) は、リポジトリの動作的に正しい編集が維持可能な構造を保存するかどうかを評価するためのフレームワークである。
NITRは、ソフトウェアエンジニアリングの知恵を、小さな、現実的なマルチファイルに埋め込まれた制御されたプローブに蒸留する。
GPT、Claude、Gemini、Qwenの各ファミリーの23のコーディング構成を、直接推論とエージェントベースの設定の両方で評価する。
論文 参考訳(メタデータ) (2026-03-29T15:56:05Z) - TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis [23.834704102474927]
コードエージェントはGitHubの問題を解決することができるが、失敗した場合、現在の評価は場所や理由を可視化しない。
本稿では,エージェントトラジェクトリを3つの解釈段階に分解する診断フレームワークTRAJEVALを紹介する。
我々はこれらの診断が予測可能であることを確認し、0.87-2.1% MAEでモデルレベルのPass@1予測を達成する。
論文 参考訳(メタデータ) (2026-03-25T05:27:03Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。
欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。
このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文 参考訳(メタデータ) (2025-09-11T07:07:11Z) - Agentic Program Repair from Test Failures at Scale: A Neuro-symbolic approach with static analysis and test execution feedback [11.070932612938154]
我々は、さまざまなソフトウェア製品にまたがる大規模なテスト失敗に基づいて、ソースコードを修正するエンジニアリングエージェントを開発した。
静的解析とテストの失敗を通じてエージェントにフィードバックを提供し、ソリューションを洗練できるようにします。
3ヶ月の間に、生成された修正の80%がレビューされ、そのうち31.5%が着陸した。
論文 参考訳(メタデータ) (2025-07-24T19:12:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。