論文の概要: Every Eval Ever: A Unifying Schema and Community Repository for AI Evaluation Results
- arxiv url: http://arxiv.org/abs/2606.14516v1
- Date: Fri, 12 Jun 2026 14:47:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.941929
- Title: Every Eval Ever: A Unifying Schema and Community Repository for AI Evaluation Results
- Title(参考訳): AI評価結果のための統一スキーマとコミュニティリポジトリ
- Authors: Jan Batzner, Sree Harsha Nelaturu, Anastassia Kornilova, Jon Crall, Tommaso Cerruti, Yanan Long, Yifan Mai, Sanchit Ahuja, Asaf Yehudai, Marek Šuppa, John P. Lalor, Oluwagbemike Olowe, Jatin Ganhotra, Brian H. Hu, Eliya Habba, Andrew M. Bean, Chang Liu, Sander Land, Steven Dillmann, Aniketh Garikaparthi, Elron Bandel, Saki Imai, James Edgell, Wm. Matthew Kennedy, Jenny Chim, Patrick Meusling, Asteria Kaeberlein, Venkata Ramachandra Karthik Chundi, Manasi Patwardhan, Martin Ku, Austin Meek, Leon Knauer, Brian Wingenroth, Srishti Yadav, Usman Gohar, Felix Friedrich, Michelle Lin, Jennifer Mickel, Arman Cohan, Stella Biderman, Irene Solaiman, Zeerak Talat, Anka Reuel, Mubashara Akhtar, Gjergji Kasneci, Avijit Ghosh, Leshem Choshen,
- Abstract要約: AI評価結果のための最初の共有スキーマとコミュニティリポジトリであるEvery Eval Everを紹介します。
すべてのEval Everは評価ハーネスや論文から結果を取り込み、詳細な分析のためにインスタンスごとのアウトプットを格納します。
- 参考スコア(独自算出の注目度): 60.31885052073872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI evaluations are widely used for testing and understanding progress. However, the diverse evaluators bring with them inconsistencies that challenge analysis and comparison. First, results are saved in incompatible formats, scattered across leaderboards, papers, blog posts, evaluation harness logs, and custom repositories. Second, results are created by different evaluation frameworks, which produce divergent scores for nominally identical evaluations and record metadata inconsistently, hindering comparison, cross-community evaluation science, cost reduction, and reuse. We introduce Every Eval Ever, the first shared schema and community-crowdsourced repository for AI evaluation results. The schema standardizes how evaluations are represented in a unified, single JSON document. It is source-agnostic by design, ingesting results from evaluation harnesses and papers alike, and optionally stores per-instance outputs for fine-grained analysis. We contribute: (i) a community-governed metadata schema with a companion instance-level schema, the first standardization effort of its kind; (ii) automatic converters from popular formats, evaluation harnesses, and leaderboards to the unified schema; and (iii) a crowdsourced community database hosted on Hugging Face, currently spanning to date 22,235 models, 2,273 unique benchmarks, and 31 evaluation formats.
- Abstract(参考訳): AI評価は、進捗のテストと理解に広く使用されている。
しかし、多種多様な評価者は、分析と比較に挑戦する矛盾をもたらす。
まず、結果は非互換なフォーマットで保存され、リーダーボード、論文、ブログ記事、評価ハーネスログ、カスタムリポジトリに分散する。
第2に、異なる評価フレームワークによって結果が作成され、名目上同一評価のための分散スコアを生成し、メタデータを一貫性なく記録し、比較を妨げ、コミュニティ間評価科学、コスト削減、再利用を阻害する。
Eval Everは、AI評価結果のための、最初の共有スキーマとコミュニティがソースとするリポジトリです。
スキーマは、評価をどのように統一された単一のJSONドキュメントで表現するかを標準化する。
設計上はソースに依存しず、評価ハーネスや論文等から結果を取り込んでおり、微粒な分析のためにインスタンスごとの出力を任意に保存する。
コントリビューション:
(i)同種のインスタンスレベルのスキーマを備えたコミュニティが管理するメタデータスキーマ。
二 人気フォーマット、評価ハーネス及び統一スキーマへのリーダーボードからの自動コンバータ
(iii)Hugging Face上にホストされたクラウドソースコミュニティデータベースで、現在22,235モデル、2,273のユニークなベンチマーク、31の評価フォーマットが提供されている。
関連論文リスト
- Interactive Evaluation Requires a Design Science [90.62695599188204]
大規模言語モデル(LLM)は、ツールや環境、ユーザ、その他のエージェントを通じて、時間とともに機能するシステムとして、ますます多くデプロイされている。
フィールドはインタラクティブなベンチマークを構築し始めたが、その結果のランドスケープは断片化されている。
本論では,対話的評価は原則的評価パラダイムとして扱うべきであると論じる。
論文 参考訳(メタデータ) (2026-05-18T04:03:18Z) - One-Eval: An Agentic System for Automated and Traceable LLM Evaluation [10.701916838477187]
One-Evalは、自然言語要求を実行可能な評価に変換するエージェント評価システムである。
One-Evalは、産業環境でより効率的で再現可能な評価をサポートする。
論文 参考訳(メタデータ) (2026-03-10T15:45:51Z) - Where is this coming from? Making groundedness count in the evaluation of Document VQA models [12.951716701565019]
一般的な評価指標は、モデルの出力のセマンティックおよびマルチモーダルな基礎性を考慮しない。
本稿では,予測の基盤性を考慮した新しい評価手法を提案する。
提案手法は,ユーザが好みに応じてスコアを設定できるようにパラメータ化されている。
論文 参考訳(メタデータ) (2025-03-24T20:14:46Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures [28.130008435669865]
我々はMixEval-Xを紹介した。これは、様々な入力と出力のモダリティで評価を最適化するように設計された、世界初の実世界ベンチマークである。
実世界のタスク分布を再構築するために,マルチモーダルベンチマークと適応修正パイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-17T16:52:28Z) - On the Evaluation Consistency of Attribution-based Explanations [42.1421504321572]
本稿では,画像領域における属性メソッドのベンチマークを行うオープンプラットフォームであるMeta-Rankを紹介する。
1) 異なる設定下での属性評価手法の評価は、異なる性能ランキングを得ることができ、2) 多数のケースで矛盾するが、同一のトレーニング軌道に沿った個別のチェックポイントにまたがる顕著な一貫性を示す。
論文 参考訳(メタデータ) (2024-07-28T11:49:06Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。