論文の概要: Steer, Don't Solve: Training Small Critic Models for Large Code Agents
- arxiv url: http://arxiv.org/abs/2606.21811v1
- Date: Sat, 20 Jun 2026 00:14:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 02:57:05.693937
- Title: Steer, Don't Solve: Training Small Critic Models for Large Code Agents
- Title(参考訳): Steer, Don't Solve: 大規模コードエージェントのための小さな批判モデルトレーニング
- Authors: Shubham Gandhi, Yiqing Xie, Atharva Naik, Ruichen Zhu, Carolyn Rose,
- Abstract要約: 我々は、Supervised Fine-Tuningを介して軌道内フィードバックを提供する小さな批評家を訓練する。
SWE-bench Verifiedでは、CWM-32B軌道の訓練を受けた批評家が2つの未確認エージェントに転送した。
CWM-32Bでは+3.8、Qwenでは+4.4から+5.2に増加し、批判コストは強い教師の30-92倍である。
- 参考スコア(独自算出の注目度): 8.075001268402334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end code agent training is resource-intensive and plateaus on the strategy-level reasoning needed to resolve code issues, since jointly optimizing code-level execution and strategy-level reasoning leaves the latter underdeveloped. Instead, we freeze the agent and add a critic model to supply that signal. Prior code critics are post-hoc, scoring completed trajectories rather than steering the agent; we instead train a small critic that provides intra-trajectory feedback via Supervised Fine-Tuning. On SWE-bench Verified, a critic trained on CWM-32B trajectories transfers to two unseen agents (gains of +3.0 to +3.8 points), and adding target-agent trajectories to the corpus increases the gain to +3.8 on CWM-32B and +4.4 to +5.2 on two Qwen agents, at 30-92x lower critic cost than a strong teacher. On Qwen3-Next-80B-A3B, the critic-guided system is both more accurate (25.2% vs. 20.8%) and cheaper (\$0.04 vs. \$0.11) than the agent alone, because the critic also shortens trajectories. Our results show that a small, well-trained critic is a practical complement to scaling agent training. Code: https://github.com/shubhamrgandhi/critic-training. Data and models: https://huggingface.co/collections/shubhamrgandhi/critic-training-for-code-agents
- Abstract(参考訳): エンドツーエンドのコードエージェントトレーニングは、コードレベルの実行と戦略レベルの推論を共同で最適化するため、コードの問題を解決するために必要なストラテジーレベルの推論に重点を置いている。
その代わりに、エージェントを凍結し、その信号を供給するための批判モデルを追加します。
以前のコード評論家はポストホックで、エージェントを操るのではなく、完了した軌跡をスコア付けします。
SWE-bench Verifiedでは、CWM-32Bトラジェクトリの訓練を受けた批評家が2つの未確認エージェント(+3.0から+3.8ポイントのゲイン)に移動し、コーパスにターゲットエージェントトラジェクトリを追加すると、CWM-32Bでは+3.8に、Qwenエージェントでは+4.4から+5.2に、強い教師より30~92倍低いコストで上昇する。
Qwen3-Next-80B-A3Bでは、批評家誘導システムはより正確(25.2%対20.8%)で、エージェント単独よりも安価(0.04対$0.11)である。
以上の結果から,小規模でよく訓練された批評家は,エージェントのスケーリングトレーニングを実践的に補完するものであることが示唆された。
コード:https://github.com/shubhamrgandhi/critic-training。
データとモデル:https://huggingface.co/collections/shubhamrgandhi/critic-training-for-code-agents
関連論文リスト
- ICRL: Learning to Internalize Self-Critique with Reinforcement Learning [29.197505133648047]
大規模な言語モデルベースのエージェントは間違いを犯すが、批判はしばしば同じモデルを正しい行動へと導く。
凍結した批評家は、時間とともにフィードバックの品質を改善することができず、反復的な自己改善の可能性を制限する。
本稿では,自己批判を補強学習で学ぶことを提案する。これは,問題解決者と批判者を共有バックボーンから共同で訓練する新しい枠組みである。
論文 参考訳(メタデータ) (2026-05-13T08:50:05Z) - Verifier-Free RL for LLMs via Intrinsic Gradient-Norm Reward [69.99652051809737]
本研究では,検証自由な内在性勾配項再帰(VIGOR)を提案する。
VIGORはポリシーモデルのみを使用する単純な報酬です。
数学データのみに基づいてトレーニングされた場合、コードベンチマークへのクロスドメイン転送を示す。
論文 参考訳(メタデータ) (2026-05-11T03:15:37Z) - Workspace Optimization: How to Train Your Agent [49.579258311548635]
我々はエージェントのEmphworkspaceであり、それが読み取り、書き込み、テストする構造化された外部基質であると主張している。
本稿では,重み空間トレーニングの構造を反映して,作業空間を進化させる原理的手法を提案する。
ARC-AGI-3のマルチエージェントハーネスであるDreamTeamのアイデアをインスタンス化する。
論文 参考訳(メタデータ) (2026-05-10T16:52:10Z) - A Rubric-Supervised Critic from Sparse Real-World Outcomes [87.11204512676193]
現実のコーディングエージェントは、成功信号がノイズが多く、遅延し、スパースであるループで人間と動作します。
本稿では,RLに基づくトレーニングや推論時間スケーリングの報奨モデルとして,スパースとノイズの相互作用データから"批判的"モデルを学習するプロセスを提案する。
論文 参考訳(メタデータ) (2026-03-04T07:23:54Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models [56.055015597319674]
検証可能な報酬(RLVR)を用いた強化学習は,大規模言語モデル(LLM)の推論能力の向上に有効である
近年の自己回帰法は LLM の推論能力を解き放つためのラベルフリーな代替手段について検討している。
我々は、他の視点から補完的な監督を求めることにより、トレーニングの安定性を向上させる新しい自己監督型RLフレームワークであるtextitCo-rewardingを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:09:14Z) - Agentic Program Repair from Test Failures at Scale: A Neuro-symbolic approach with static analysis and test execution feedback [11.070932612938154]
我々は、さまざまなソフトウェア製品にまたがる大規模なテスト失敗に基づいて、ソースコードを修正するエンジニアリングエージェントを開発した。
静的解析とテストの失敗を通じてエージェントにフィードバックを提供し、ソリューションを洗練できるようにします。
3ヶ月の間に、生成された修正の80%がレビューされ、そのうち31.5%が着陸した。
論文 参考訳(メタデータ) (2025-07-24T19:12:32Z) - Can Agents Run Relay Race with Strangers? Generalization of RL to
Out-of-Distribution Trajectories [88.08381083207449]
異種エージェントの制御可能な状態に対する一般化失敗の有病率を示す。
本稿では,学習中のQ関数に従って環境をエージェントの旧状態にリセットする,STA(Self-Trajectory Augmentation)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-26T10:12:12Z) - CGAR: Critic Guided Action Redistribution in Reinforcement Leaning [27.8704943323583]
本稿では,CGAR(Critic Guided Action Redistribution)アルゴリズムを導入し,OpenAI MuJoCoタスク上でテストする。
政治以外のアクター評論家アルゴリズムの設定の下では、批評家は少なくとも俳優に匹敵するよりも、予想される割引報酬を得られることを実証する。
論文 参考訳(メタデータ) (2022-06-23T06:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。