論文の概要: Socratic-SWE: Self-Evolving Coding Agents via Trace-Derived Agent Skills
- arxiv url: http://arxiv.org/abs/2606.07412v1
- Date: Fri, 05 Jun 2026 16:00:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.838056
- Title: Socratic-SWE: Self-Evolving Coding Agents via Trace-Derived Agent Skills
- Title(参考訳): Socratic-SWE:Trace-Derived Agentスキルによる自己進化型コーディングエージェント
- Authors: Chuan Xiao, Zhengbo Jiao, Shaobo Wang, Wei Wang, Bing Zhao, Hu Wei, Linfeng Zhang, Lin Qu,
- Abstract要約: 本稿では,エージェントの過去の解法トレースをトレーニング信号のソースとして再利用する,クローズドループ自己進化フレームワークであるSocratic-SWEを紹介する。
トレースを報酬計算の証拠としてのみ扱うのではなく、Socratic-SWEはそれらを、繰り返し発生する障害と効果的な修復パターンを要約した構造化されたエージェントスキルに蒸留する。
- 参考スコア(独自算出の注目度): 12.442806027914097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-driven software engineering agents have become a central testbed for real-world language-model capability, yet their training remains limited by the availability of high-quality SWE tasks. Existing synthetic data methods typically create tasks through fixed mutation or bug-injection procedures, making the resulting distributions largely independent of the agent's own weaknesses and training progress. We introduce Socratic-SWE, a closed-loop self-evolution framework that reuses the agent's historical solving traces as a source of training signal. Rather than treating traces only as evidence for reward computation, Socratic-SWE distills them into structured agent skills that summarize recurring failures and effective repair patterns. These skills then guide the generation of targeted repair tasks in real repositories. Candidate tasks are checked through execution-based validation and scored with a solver-gradient alignment reward, so that the retained tasks are both verifiable and useful for improving the Solver. The updated Solver produces new traces, enabling the task curriculum to adapt over successive rounds. Across SWE-bench Verified, SWE-bench Lite, SWE-bench Pro, and Terminal-Bench 2.0, Socratic-SWE consistently improves over self-evolving baselines under the same compute budget, reaching 50.40% on SWE-bench Verified after three iterations. These results suggest that solving traces can serve as a scalable substrate for self-evolving SWE agents.
- Abstract(参考訳): LLM駆動のソフトウェアエンジニアリングエージェントは、現実世界の言語モデル機能の中心的なテストベッドとなっているが、そのトレーニングは高品質なSWEタスクの可用性によって制限されている。
既存の合成データ手法は、通常、固定された突然変異またはバグ注入手順によってタスクを生成し、その結果の分布はエージェント自身の弱点と訓練の進捗から大きく独立する。
本稿では,エージェントの過去の解法トレースをトレーニング信号のソースとして再利用する,クローズドループ自己進化フレームワークであるSocratic-SWEを紹介する。
トレースを報酬計算の証拠としてのみ扱うのではなく、Socratic-SWEはそれらを、繰り返し発生する障害と効果的な修復パターンを要約した構造化されたエージェントスキルに蒸留する。
これらのスキルは、実際のリポジトリでターゲットの修理タスクの生成をガイドする。
候補タスクは、実行ベースの検証を通じてチェックされ、ソルバーを改善するのに有用であり、保持されたタスクが検証可能であるように、ソルバーの段階的なアライメント報酬でスコアされる。
アップデートされたSolverは新しいトレースを生成し、タスクカリキュラムが連続したラウンドに適応できるようにする。
SWE-bench Verified, SWE-bench Lite, SWE-bench Pro, および Terminal-Bench 2.0 全体で、Socratic-SWEは、同じ計算予算下での自己進化ベースラインを一貫して改善し、3回の反復でSWE-bench Verifiedで50.40%に達した。
これらの結果は, トレースを自己進化型SWEエージェントのスケーラブルな基質として利用することができることを示唆している。
関連論文リスト
- Self-evolving LLM agents with in-distribution Optimization [60.05867547965365]
大規模言語モデル(LLM)は最近、複雑な環境で対話的なエージェントのための強力なコントローラとして登場した。
本稿では,自動プロセス・リワードラベリングとポリシー学習を統一するLDMエージェントの自己進化フレームワークであるQ-Evolveを提案する。
我々は,AlfWorld,WebShop,ScienceWorldの手法を評価し,Q-Evolveがサンプル効率,堅牢性,全体的なタスク性能において高いベースラインを達成していることを示す。
論文 参考訳(メタデータ) (2026-06-05T15:09:52Z) - Trace2Skill: Verifier-Guided Skill Evolution for Long-Context EDA Agents [0.3733676450456031]
テスト時間スケーリングフレームワークであるTrace2Skillを提案する。
新しいモデルをトレーニングしたり、より多くの候補ソリューションをサンプリングする代わりに、Trace2Skillはエージェントの自然言語スキルを進化可能なポリシーとして扱う。
成功と失敗モードのために繰り返しロールアウトトレースをマイニングし、それらを密集した診断やオラクルのレッスンに変換し、オラクル、ミューテータ、セレクタループを使用してタスク固有のスキルを生成する。
論文 参考訳(メタデータ) (2026-05-20T23:10:49Z) - SWE-Shepherd: Advancing PRMs for Reinforcing Code Agents [0.31034395048547575]
既存のアプローチは、コード編集、ファイルナビゲーション、テスト実行などのアクションを選択するための静的なプロンプト戦略や手作業に依存している。
本稿では,プロセス・リワード・モデル(Process Reward Models,PRM)を導入するフレームワークであるSWE-Shepherdを提案する。
SWE-Bench Verifiedの実験では、インタラクション効率とアクション品質の改善に加えて、中間報酬と最終タスク成功の整合性の課題も強調されている。
論文 参考訳(メタデータ) (2026-04-12T06:51:47Z) - CLEANER: Self-Purified Trajectories Boost Agentic Reinforcement Learning [4.765206163164323]
CLEANERは本質的な自己訂正機能を利用して、データ収集中にエラーに汚染されたコンテキストを除去する。
類似性を考慮した適応ロールバック機構は、クリーンで清浄な軌道を自律的に構築する。
その結果, 平均精度は6%, 3%, 5%であった。
論文 参考訳(メタデータ) (2026-01-21T16:14:30Z) - AgentDevel: Reframing Self-Evolving LLM Agents as Release Engineering [8.201374511929538]
AgentDevelは、現行のエージェントを反復的に実行するリリースエンジニアリングパイプラインである。
実行トレースから実装盲の症状レベルの品質信号を生成する。
主要な症状パターンを集約し、監査可能なエンジニアリング仕様を生成する。
論文 参考訳(メタデータ) (2026-01-08T05:49:01Z) - Toward Training Superintelligent Software Agents through Self-Play SWE-RL [66.11447353341926]
セルフプレイSWE-RLは、超知能ソフトウェアエージェントのトレーニングパラダイムに向けた第一歩である。
当社のアプローチでは,ソースコードとインストール済みの依存関係を備えたサンドボックスリポジトリへのアクセスのみを必要としています。
我々の成果は、早い段階で、エージェントが現実世界のソフトウェアリポジトリから広範囲にわたる学習経験を自律的に収集する道のりを示唆している。
論文 参考訳(メタデータ) (2025-12-21T00:49:40Z) - BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning [82.925106913459]
強化微調整(Reinforcement Finetuning, RFT)は、大規模言語モデル(LLM)を人間の嗜好と整合させ、推論を強化するための重要な手法である。
RFT強化微調整におけるベイズオンラインタスク選択のための統合フレームワークBOTSを紹介する。
論文 参考訳(メタデータ) (2025-10-30T11:15:23Z) - Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm [60.36837655498119]
本稿では,トラジェクトリをベースとしたエージェント・ベンチマーク・複雑度進化フレームワークを提案する。
このフレームワークは、既存のベンチマークから元のタスクを受け取り、エージェントがそれをより難しい新しいタスクに進化させるよう促す。
GAIAベンチマークの実験では、TRACEフレームワークはタスクの複雑さを継続的に向上し、正確性の信頼性を向上させる。
論文 参考訳(メタデータ) (2025-10-01T01:52:52Z) - Self-Challenging Language Model Agents [98.62637336505242]
本稿では,エージェントが自ら生成する高品質なタスクについて,エージェントを訓練するためのセルフチェンジフレームワークを提案する。
このフレームワークは、Llama-3.1-8B-Instructの2倍の改善を実現している。
論文 参考訳(メタデータ) (2025-06-02T14:23:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。