論文の概要: Position: Coding Benchmarks Are Misaligned with Agentic Software Engineering
- arxiv url: http://arxiv.org/abs/2606.17799v1
- Date: Tue, 16 Jun 2026 11:21:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.398692
- Title: Position: Coding Benchmarks Are Misaligned with Agentic Software Engineering
- Title(参考訳): ポジション: コーディングベンチマークはエージェントソフトウェア工学と誤解される
- Authors: Maria I. Gorinova, Macey Baker, Amy Heineike, Maksim Shaposhnikov, Rob Willoughby, Dru Knox,
- Abstract要約: コーディングエージェントは、ソフトウェアエンジニアリングの主要なモードになっていますが、比較に使用するベンチマークは、前エージェント時代に設計されました。
現在のコーディングベンチマークはエージェント型ソフトウェアエンジニアリングと不一致である、と私たちは主張する。
- 参考スコア(独自算出の注目度): 0.4509560087514856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coding agents have become a major mode of software engineering, but the benchmarks we use to compare them were designed in a pre-agent era: they collapse model, harness, and environment into a single end-to-end score, typically computed against one reference solution, with no component-level signal for iteration. We argue that current coding benchmarks are misaligned with agentic software engineering. A coding agent in practice is not a model: it is a system harness -- a composite of models, harnesses, contexts, environments, and feedback signals, any one of which can move the benchmark score by margins comparable to those between adjacent model generations. We discuss three symptoms: (i) benchmark scores conflate the model with the rest of the harness; (ii) grading against a single reference solution penalises equally valid alternatives; and (iii) the absence of signal at the level of individual harness components makes the end-to-end system score difficult to iterate on.
- Abstract(参考訳): コーディングエージェントは、ソフトウェアエンジニアリングの主要なモードになっていますが、比較に使用したベンチマークは、事前エージェント時代に設計されました。
現在のコーディングベンチマークはエージェント型ソフトウェアエンジニアリングと不一致である、と私たちは主張する。
システムハーネス - モデル、ハーネス、コンテキスト、環境、フィードバック信号の組み合わせで、ベンチマークスコアを隣のモデル世代に匹敵するマージンで動かすことができる。
3つの症状について論じる。
(i)ベンチマークスコアは、モデルをハーネスの他の部分と分割する。
二 単一の参照ソリューションに対して等しく有効な代替品を格付けすること。
三 個々のハーネス成分のレベルにおける信号の欠如により、エンド・ツー・エンドのシステムスコアの反復が困難になる。
関連論文リスト
- GENEB: Why Genomic Models Are Hard to Compare [0.0]
我々は、100タスクにわたる40のゲノム基盤モデルから凍結表現を評価する大規模な診断ベンチマークであるGENEBを紹介する。
genEBは,タスクレベルのトレードオフを明確に示しながら,モデルスケール,アーキテクチャ,トークン化,事前学習データ間の比較を制御可能であることを示す。
これらの結果から,ゲノミクス学習における概念比較とカテゴリー認識モデル選択の基準フレームワークとして,現在の評価実践の限界とgenEBの位置が強調された。
論文 参考訳(メタデータ) (2026-06-03T07:06:01Z) - Code as Agent Harness [107.31925305395957]
新興のエージェントシステムでは、コードはもはや単なる目標出力ではない。
コードはエージェントの推論、行動、環境モデリング、実行ベースの検証のための運用上の基盤としてますます役立っている。
この調査は、実行可能、検証可能、ステートフルなAIエージェントシステムに向けた統一されたロードマップを提供する。
論文 参考訳(メタデータ) (2026-05-18T17:59:03Z) - An Embarrassingly Simple Graph Heuristic Reveals Shortcut-Solvable Benchmarks for Sequential Recommendation [50.09718257952108]
Sequentialsolvは、シーケンシャルなパターンとセマンティックなアイテム情報を組み合わせたジェネレーティブなレコメンデーターへと移行している。
これらの手法は、しばしば、広く使われている少数のベンチマークで評価され、重要な疑問を提起する: これらのベンチマークは、現代のジェネレーティブレコメンデーターが提供しようとしている高度なモデリング機能を必要としているか?
我々は、意図的な単純なグラフでベンチマーク監査を行い、最後の1つか2つの項目から、数ホップの項目遷移グラフから候補を検索し、項目間類似度でランク付けする。
論文 参考訳(メタデータ) (2026-05-08T02:00:11Z) - Evaluating Agentic AI in the Wild: Failure Modes, Drift Patterns, and a Production Evaluation Framework [0.0]
生産エージェントシステムに特有の7つの障害モードの分類法を提案する。
標準メトリクスは、7つの障害モードのうち4つを完全に検出することができない。
オープンソースの参照実装を備えた5次元評価フレームワークPAEFを提案する。
論文 参考訳(メタデータ) (2026-05-02T21:02:08Z) - MASEval: Extending Multi-Agent Evaluation from Models to Systems [77.09381093359598]
MASEvalはフレームワークに依存しないライブラリで、システム全体を分析の単位として扱う。
研究者はエージェントシステムのすべてのコンポーネントを探索し、原則化されたシステム設計のための新たな道を開くことができる。
論文 参考訳(メタデータ) (2026-03-09T18:46:17Z) - IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms [54.99368693313797]
既存のベンチマークでは、個々の言語/ツールのみをテストするため、パフォーマンス番号は直接比較できない。
このギャップに対処するAlgoVeriは、Dafny、Verus、Leanで77ドルの古典的アルゴリズムのベリコーディングを評価するベンチマークです。
論文 参考訳(メタデータ) (2026-02-10T06:58:26Z) - Beyond Arrow: From Impossibility to Possibilities in Multi-Criteria Benchmarking [8.399688944263843]
我々は、各指標が各データセットのモデルよりも優先順位を誘導する社会的選択問題を定式化する。
我々は、単一話者、グループ分離可能、および距離制限された選好において、ベンチマーク演算子は、良好なランク付けを構築することができることを証明した。
HELM MMLUのような近代的なベンチマークスイートを実証的に検討し、どのベンチマーク問題でどの構造条件が満たされているかを検証する。
論文 参考訳(メタデータ) (2026-02-07T15:47:24Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。