論文の概要: RigorBench: Benchmarking Engineering Process Discipline in Autonomous AI Coding Agents
- arxiv url: http://arxiv.org/abs/2606.22678v1
- Date: Sun, 21 Jun 2026 21:41:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 07:39:06.10201
- Title: RigorBench: Benchmarking Engineering Process Discipline in Autonomous AI Coding Agents
- Title(参考訳): RigorBench: 自律AIコーディングエージェントにおけるエンジニアリングプロセスのベンチマーク
- Authors: Meher Bhaskar Madiraju, Meher Sai Preetam Madiraju,
- Abstract要約: RigorBenchは、AIコーディングエージェントのプロセス規律を測定する最初のベンチマークである。
プランニングフィデリティ、検証カバレッジ、回復効率、吸収品質、原子遷移積分の5つの柱にまたがるハーネスを評価している。
その結果,構造化プロセスの規律はプロセス品質のスコアを平均41%向上させ,下流結果の正しさを17%向上させることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic coding harnesses - such as Agent-Skills, Superpowers, and Agent-Rigor - are increasingly deployed to augment underlying LLMs for real-world software engineering tasks. Existing benchmarks evaluate these agents almost exclusively on outcome correctness: whether generated code passes tests or resolves issues. We argue that this outcome-only lens is insufficient: an agent that arrives at a correct solution through reckless trial-and-error, without planning, verification, or graceful recovery, is fundamentally less reliable than one that follows sound engineering discipline. We introduce RigorBench, the first benchmark designed to measure process discipline in AI coding agents. RigorBench evaluates these harnesses across five pillars: Planning Fidelity, Verification Coverage, Recovery Efficiency, Abstention Quality, and Atomic Transition Integrity. A composite RigorScore aggregates these dimensions into a single metric via a weighted sum. We curate a suite of 30 tasks spanning five categories - Plan-Then-Build, Verify-Or-Die, Doom Loop Gauntlet, Know When to Fold, and Don't Break the Build-and evaluate leading harnesses in a controlled with/without experimental design against baseline coding assistants. Our results show that structured process discipline not only improves process quality scores by an average of 41% but also raises downstream outcome correctness by 17%, providing the first quantitative evidence that how agents code matters as much as what they produce. We release the full benchmark, scoring rubrics, and trajectory analysis tools as open-source artifacts.
- Abstract(参考訳): Agent-Skills(エージェントスキル)、Superpowers(スーパーパワー)、Agent-Rigor(エージェントリゴール)といったエージェントコーディングハーネスは、現実のソフトウェアエンジニアリングタスクの基盤となるLLMを強化するために、ますます多くデプロイされている。
既存のベンチマークでは、生成されたコードがテストに合格するか、問題が解決するかという、結果の正しさをほぼ独占的に評価している。
我々は、この結果のみのレンズが不十分であると主張する。無謀な試行錯誤によって正しい解決策にたどり着くエージェントは、計画、検証、優雅な回復なしに、音響工学の規律に従うものよりも基本的には信頼性が低い。
AIコーディングエージェントのプロセス規律を測定するために設計された最初のベンチマークであるRigorBenchを紹介する。
RigorBench氏は、これらのハーネスを、5つの柱、プランニングフィデリティ、検証カバレッジ、リカバリ効率、アテンション品質、アトミックトランジションインテリジェンス(Atomic transition Integrity)で評価している。
合成RigorScoreはこれらの次元を重み付き和によって単一の計量に集約する。
Plan-Then-Build、Verify-Or-Die、Doom Loop Gauntlet、Know When to Fold、Don't Break the Build という5つのカテゴリにまたがる30のタスクのスイートをキュレートします。
その結果,構造化プロセスの規律はプロセス品質のスコアを平均41%向上させるだけでなく,下流結果の正しさを17%向上させることがわかった。
我々は、オープンソースのアーティファクトとして、ルックスをスコアリングする完全なベンチマークとトラジェクトリ分析ツールをリリースします。
関連論文リスト
- Socratic-SWE: Self-Evolving Coding Agents via Trace-Derived Agent Skills [12.442806027914097]
本稿では,エージェントの過去の解法トレースをトレーニング信号のソースとして再利用する,クローズドループ自己進化フレームワークであるSocratic-SWEを紹介する。
トレースを報酬計算の証拠としてのみ扱うのではなく、Socratic-SWEはそれらを、繰り返し発生する障害と効果的な修復パターンを要約した構造化されたエージェントスキルに蒸留する。
論文 参考訳(メタデータ) (2026-06-05T16:00:17Z) - Can Coding Agents Reproduce Findings in Computational Materials Science? [49.254975563645786]
本稿では,大規模言語モデルの科学的主張を再現する能力を評価するためのベンチマークであるAutoMatを紹介する。
課題を専門とする専門家と緊密に連携することで、実際の材料科学論文からの一連の主張をキュレートし、コーディングエージェントがエンドツーエンドのワークフローを回復し実行できるかどうかを検証します。
結果、現在のLSMベースのエージェントはAutoMatの全体的な成功率を低くし、最も優れた設定は54.1%に過ぎなかった。
論文 参考訳(メタデータ) (2026-05-01T17:42:12Z) - ELT-Bench-Verified: Benchmark Quality Issues Underestimate AI Agent Capabilities [4.5258165293324515]
Extract-Load-Transformパイプラインは、労働集約的なデータエンジニアリングタスクであり、AI自動化の高インパクトターゲットである。
エンドツーエンドのETLパイプライン構築のための最初のベンチマークであるETL-Benchでは、AIエージェントが最初に成功率を低くした。
これらの結果を再検討し,エージェント能力を著しく過小評価する要因を2つ同定した。
論文 参考訳(メタデータ) (2026-03-31T08:02:16Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z) - An LLM-as-Judge Metric for Bridging the Gap with Human Evaluation in SE Tasks [15.820416019287622]
SE-JuryはLLM-as-Ensemble-Judgeの最初の評価基準である。
さまざまなソフトウェアエンジニアリング(SE)ベンチマークでSE-Juryを評価します。
論文 参考訳(メタデータ) (2025-05-27T08:04:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。