論文の概要: Life After Benchmark Saturation: A Case Study of CORE-Bench
- arxiv url: http://arxiv.org/abs/2606.26158v1
- Date: Tue, 23 Jun 2026 22:30:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 18:46:32.015852
- Title: Life After Benchmark Saturation: A Case Study of CORE-Bench
- Title(参考訳): ベンチマーク飽和後の生活 : CORE-Benchを事例として
- Authors: Nitya Nadgir, Sayash Kapoor, Kangheng Liu, Peter Kirgis, Matilda Orona, Stephan Rabanser, Tilman Bayer, Abhishek Shetty, Yue Ling, Derrick Chan-Sew, Rumi Nakagawa, Saiteja Utpala, Zachary S. Siegel, Arvind Narayanan,
- Abstract要約: ベンチマークの精度が飽和すると、しばしばリタイアされ、より難しいバージョンに置き換えられる。
このアプローチによって精度が向上し、エージェント性能の他の6つの重要な側面を研究する機会を逃していることを示す。
我々は、これらの次元に沿ったエージェントの測定が、精度が飽和した後でも、エージェントのパフォーマンスに関する有意義な洞察をもたらすことを示すためのケーススタディとして、科学コード計算のベンチマークであるCORE-Bench Hardを使用する。
- 参考スコア(独自算出の注目度): 12.53001683563388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When a benchmark's accuracy saturates, it is often retired and replaced with a more challenging version. We show that this approach privileges accuracy and misses the opportunity to study six other key dimensions of agent performance: construct validity issues such as shortcuts, out-of-distribution generalizability, efficiency, reliability, the relative importance of the model versus the scaffold, and uplift from human-agent collaboration. We use CORE-Bench Hard, a benchmark for computational reproducibility of scientific code, as a case study to demonstrate that measuring agents along these dimensions yields meaningful insights into agent performance even after accuracy saturates. First, we surface threats to construct validity in CORE-Bench Hard that are difficult to anticipate with less capable agents. We introduce an improved benchmark, CORE-Bench v1.1, and an out-of-distribution task suite, CORE-Bench OOD. Second, we find that despite accuracy saturation, CORE-Bench v1.1 remains useful for measuring efficiency, reliability, model performance, and scaffold performance. Finally, we conduct a small-scale randomized experiment to measure uplift from human-agent collaboration on real-world computational reproducibility tasks. We find a statistically significant speedup by about a factor of two -- likely underestimated due to one-fifth of human-only reproductions reaching the time limit before completing -- and describe various other findings. Together, our contributions present a more rigorous alternative to the dominant accuracy-centric evaluation paradigm.
- Abstract(参考訳): ベンチマークの精度が飽和すると、しばしばリタイアされ、より難しいバージョンに置き換えられる。
提案手法は, エージェント性能の他の6つの重要な側面, ショートカット, アウト・オブ・ディストリビューションの一般化性, 効率, 信頼性, モデルと足場との相対的重要性, および人間とエージェントのコラボレーションの隆起などについて検討する機会を逃していることを示す。
科学的コードの計算再現性に関するベンチマークであるCORE-Bench Hardをケーススタディとして、これらの次元に沿った測定エージェントが、精度が飽和した後でも、エージェントのパフォーマンスに有意義な洞察を与えることを示す。
まず,CORE-ベンチハードの有効性構築の脅威を明らかにする。
改良されたベンチマーク、CORE-Bench v1.1、および配布外タスクスイートであるCORE-Bench OODを導入する。
第二に、精度飽和にもかかわらず、CORE-Bench v1.1は効率、信頼性、モデル性能、足場性能を測定するのに有用である。
最後に、現実の計算再現性タスクにおいて、人間とエージェントの協調による昇華を測定するために、小規模なランダム化実験を行う。
われわれは統計学的に有意なスピードアップを約2倍にし、人間のみの再生の5分の1が完成前に限界に達したために過小評価された可能性が高い。
共に、我々の貢献は、主流の精度中心評価パラダイムに対するより厳格な代替案を提示している。
関連論文リスト
- TRACE: Trajectory-Aware Comprehensive Evaluation for Deep Research Agents [51.30998248590416]
Trajectory-Aware Comprehensive Evaluation (TRACE) は、問題解決の軌道全体を評価するフレームワークである。
私たちのコントリビューションには、TRACEフレームワーク、その新しいメトリクス、および制御可能な複雑さを伴うDeepResearch-Benchが含まれています。
論文 参考訳(メタデータ) (2026-02-05T13:28:57Z) - ODP-Bench: Benchmarking Out-of-Distribution Performance Prediction [29.953921358142477]
Out-of-Distribution (OOD)パフォーマンス予測は、未ラベルのテストデータセット上でトレーニングされたモデルのパフォーマンスを予測することを目的としている。
OODデータセットと既存の実用的な性能予測アルゴリズムを含む総合ベンチマークであるOut-of-Distribution Performance Prediction Benchmark (ODP-Bench)を提案する。
我々は、将来の研究者のためのテストベンチとしてトレーニングされたモデルを提供し、比較の一貫性を保証し、モデルのトレーニングプロセスの繰り返しの負担を回避する。
論文 参考訳(メタデータ) (2025-10-31T08:03:35Z) - RewardBench 2: Advancing Reward Model Evaluation [71.65938693914153]
リワードモデルは、好みのデータからニュアンスされた信号をキャプチャするために、言語モデルの訓練後を通して使用される。
コミュニティは報酬モデルを評価するためのベストプラクティスを確立し始めている。
本稿では,新しいマルチスキル報酬モデルベンチマークであるRewardBench 2を紹介する。
論文 参考訳(メタデータ) (2025-06-02T17:54:04Z) - CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark [11.794931453828974]
CORE-Benchは3つの分野(コンピュータ科学、社会科学、医学)にわたる90の科学論文に基づく270のタスクからなるベンチマークである。
エージェントの精度を高速かつ並列に測定する評価システムを提案する。
最高のエージェントは、最も難しいタスクにおいて21%の精度を達成した。
論文 参考訳(メタデータ) (2024-09-17T17:13:19Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Efficient Epistemic Uncertainty Estimation in Regression Ensemble Models Using Pairwise-Distance Estimators [12.460684753030899]
ペアワイズ距離推定器(PaiDEs)はエントロピー上の境界を確立する。
サンプルベースのモンテカルロ推定器とは異なり、PaiDEは最大100倍の速度でてんかんの不確実性を推定する顕著な能力を示す。
我々は,既存の能動学習手法と比較し,高次元回帰タスクにおいて,我々のアプローチが優れていることを見出した。
論文 参考訳(メタデータ) (2023-08-25T17:13:42Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - On Efficient Uncertainty Estimation for Resource-Constrained Mobile
Applications [0.0]
予測の不確実性は、モデル予測を補完し、下流タスクの機能を改善します。
Axolotlフレームワークを用いてモンテカルロ・ドロップアウト(MCDO)モデルを構築することでこの問題に対処する。
我々は,(1)CIFAR10データセットを用いた多クラス分類タスク,(2)より複雑な人体セグメンテーションタスクについて実験を行った。
論文 参考訳(メタデータ) (2021-11-11T22:24:15Z) - Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。
まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。
次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文 参考訳(メタデータ) (2021-02-10T15:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。