論文の概要: Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents
- arxiv url: http://arxiv.org/abs/2606.19704v1
- Date: Thu, 18 Jun 2026 02:02:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.606976
- Title: Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents
- Title(参考訳): 静的リーダーボードを超えて: LLMエージェントの評価のための予測的妥当性
- Authors: Dhaval C. Patel, Kaoutar El Maghraoui, Shuxin Lin, Yusheng Li, Tianjun Feng, Chun-Yi Tsai, Yihan Sun, Wei Alexander Xin, Akshat Bhandari, Tanisha Rathod, Aaron Fan, Sanskruti Vijay Shejwal, Tomas Pasiecznik, Sagar Chethan Kumar, Tanmay Agarwal, Rohith Kanathur, Sam Colman, Amaan Sheikh, Dev Bahl, Ann Li, Krish Veera, Alimurtaza Mustafa Merchant, Shambhawi Baswaraj Bhure, Sajal Kumar Goyla, Chengrui Li, Kirthana Natarajan, Rui Li, Thomas Ajai, Rujing Li, Vivek G. Iyer, Sanjaii Vijayakumar, Yitong Bai, Ayal Yakobe, Darief Maes, Yassine Jebbouri, Tianyang Xu, Thai Quoc On, Vera Mazeeva, Winston Li, Yuval Shemla, Yeshitha Bhuvanesh, Rushin Bhatt, Siddharth Chethan Gowda, Alisha Vinod, Caroline Cahill, Shriya Aishani Rachakonda, Yunfeng Chen, Aryaman Agrawal, Aman Upganlawar, Mao Le Jonathan Ang, Yubin Sally Go, Madhav Rajkondawar, Yang-Jung Chen, Trisha Maturi, Ananya Kapoor, Andrew Li, Shrey Arora, Mana Abbaszadeh, Shen Li, Charles Xu, Byeolah Kwon,
- Abstract要約: 本稿では,MPPをベースとした産業エージェントベンチマークにおいて,これまでで最大規模の協調型ディープディーブを集計する。
集約スコアのリーダーボードは,デプロイエージェントの評価を体系的に過小評価している,と我々は主張する。
- 参考スコア(独自算出の注目度): 19.290397279235084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agent benchmarks are growing fast, but no single benchmark touches more than four or five of the dimensions that deployment exposes. This paper aggregates the largest coordinated deep-dive of one MCP-based industrial-agent benchmark to date: fourteen parallel implementation studies covering new asset classes (including a multi-modal visual extension), alternative orchestrations, retrieval strategies, reasoning modes, infrastructure optimizations, and evaluation-methodology probes. Consolidating those studies with seven prior agent benchmarks, we argue that aggregate-score leaderboards systematically underspecify deployed-agent evaluation. Rankings derived from aggregate scores do not transfer to out-of-distribution settings; recent public-to-hidden competition retrospectives provide direct empirical evidence of this rank instability. We propose ranking configurations by predictive validity, the correlation between in-sample and out-of-sample rank, rather than in-sample mean, and report a twelve-tier measurement apparatus that exposes the deployment-relevant dimensions HELM and its agent-era successors collapse. The position is operationalized through three falsifiable out-of-distribution criteria with explicit thresholds; existing evidence partly supports it but is too thin to confirm. We close with a pre-registered pilot design and a field-level vision for what the next generation of agentic benchmarks should report.
- Abstract(参考訳): エージェントベンチマークは急速に成長しているが、デプロイが公開する4~5次元に1つのベンチマークが触れることはない。
本稿では,MPPをベースとした1つの産業エージェントベンチマークにおいて,これまでで最大の協調型ディープディブを集約する。新しい資産クラス(マルチモーダルな視覚拡張を含む),代替オーケストレーション,検索戦略,推論モード,インフラストラクチャ最適化,評価方法論プローブを含む,14の並列実装研究である。
それらの研究を7つの先行エージェントベンチマークと統合することで、集約スコアのリーダーボードは、デプロイエージェントの評価を体系的に過小評価している、と論じる。
集計スコアから得られるランキングはアウト・オブ・ディストリビューション・セッティングに転送されない。
本稿では, 予測妥当性, サンプル内平均よりもサンプル内ランクとサンプル外ランクの相関によるランキング構成を提案し, HELMとそのエージェント時代の後継を崩壊させる12層測定装置を報告する。
この位置は、明確なしきい値を持つ3つの流通禁止基準によって運用されている。
我々は、登録済みのパイロットデザインと、次世代のエージェントベンチマークの報告に関するフィールドレベルのビジョンに近づいた。
関連論文リスト
- AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility [104.46861849039357]
エージェントシステムはドメイン間で急速に進歩しているが、その評価は断片化されている。
根本的問題は、オープンでエージェントに依存しないアセスメントインタフェースがないことである。
我々は、審査員が評価を行い、すべての参加者が標準化されたプロトコルを介して対話するエージェントエージェントアセスメント(AAA)を提唱する。
論文 参考訳(メタデータ) (2026-06-11T17:23:54Z) - A Unified Framework for the Evaluation of LLM Agentic Capabilities [36.43241368835721]
LLMエージェント能力の公平な評価のための統一的なフレームワークを提案する。
統合された構成システムによって駆動されるこのフレームワークは、様々なベンチマークを標準化された命令-ツール-環境フォーマットに統合する。
我々は15モデルで400Kロールアウトと5Bトークンに対して大規模な実証分析を行う。
論文 参考訳(メタデータ) (2026-05-27T03:20:45Z) - AI Cartography: Mapping the Latent Landscape of AI Benchmark Ecosystems [20.174278188532096]
AIベンチマークエコシステムの潜伏状況を測定するためのフレームワークを紹介します。
The Open LLM Leaderboardから4000以上のモデルに確認因子分析(CFA)と一般化可能性理論を適用して、ランキング分散の源泉を分解する。
ベンチマークランキングをどのように信頼するか、ベンチマーク設計をどのように改善できるかを判断するために、実行可能な診断を提供する。
論文 参考訳(メタデータ) (2026-05-24T21:59:08Z) - Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents? [61.49434544687523]
本稿では,エージェント環境におけるきめ細かい故障検出を目的としたメタ評価ベンチマークREFLECTを紹介する。
REFLECTはプロセスレベルの障害モードと結果レベルの障害モードの詳細な分類を定義し、制御および局所的な介入を実行することでインスタンス化する。
私たちの実験では、最高のパフォーマンスモデルでさえ、推論、ツール使用、レポート品質の失敗に対して、全体的なアキュラシーを55%以下に達成しています。
論文 参考訳(メタデータ) (2026-05-18T23:55:08Z) - Deployment-Relevant Alignment Cannot Be Inferred from Model-Level Evaluation Alone [11.663456969895462]
機械学習におけるアライメント評価は、主にモデルの評価となっている。
本稿では, モデルレベルの評価だけでは, 配置関連アライメントを推定できないことを論じる。
論文 参考訳(メタデータ) (2026-05-06T03:28:30Z) - Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems [55.04168927059962]
推論集約的な検索は、単にトピックの類似性に一致するのではなく、下流の推論を支持する証拠を明らかにすることを目的としている。
BRIGHT-Proは、専門家による注釈付きベンチマークで、各クエリを複数アスペクトのゴールドエビデンスで拡張する。
また,相補的な正と正条件の強陰性を生成するアスペクト分解型合成コーパスであるRTriever-Synthを構築した。
論文 参考訳(メタデータ) (2026-05-05T17:42:50Z) - RPA-Check: A Multi-Stage Automated Framework for Evaluating Dynamic LLM-based Role-Playing Agents [4.07447364754644]
本稿では,LLM ベースの RPA の性能を客観的に評価する多段階自動評価フレームワーク RPA-Check を紹介する。
我々は,この枠組みを,いくつかの定量化ローカルモデルを含む法医学的な訓練のための真剣なゲームであるLLM Courtに適用することで検証する。
論文 参考訳(メタデータ) (2026-04-13T16:08:03Z) - Efficient Benchmarking of AI Agents [0.0]
小型タスクサブセットがエージェントランキングを極めて低コストで維持できるかどうかを検討する。
絶対スコア予測は足場駆動の分布シフトで低下することがわかった。
本稿では,中間的履歴パス率を持つタスクに対してのみ,新しいエージェントを評価できる最適化フリープロトコルを提案する。
論文 参考訳(メタデータ) (2026-03-24T22:17:11Z) - Benchmark^2: Systematic Evaluation of LLM Benchmarks [66.2731798872668]
3つの相補的なメトリクスからなる包括的なフレームワークであるBenchmark2を提案する。
数学、推論、知識ドメインにまたがる15のベンチマークで実験を行います。
本分析により,既存のベンチマーク間での有意な品質変化が明らかとなり,選択的なベンチマーク構築が同等な評価性能を達成できることが示されている。
論文 参考訳(メタデータ) (2026-01-07T14:59:03Z) - Structured Prompting Enables More Robust Evaluation of Language Models [38.53918044830268]
DSPy+HELMフレームワークを提案する。
構造化されたプロンプトがなければ、HELMはLM性能(平均4%)を過小評価し、性能評価はベンチマークによって異なることがわかった。
これは、構造化されたプロンプトを確立された評価フレームワークに体系的に統合する最初のベンチマーク研究である。
論文 参考訳(メタデータ) (2025-11-25T20:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。