論文の概要: Evaluation Cards: An Interpretive Layer for AI Evaluation Reporting
- arxiv url: http://arxiv.org/abs/2606.09809v2
- Date: Tue, 09 Jun 2026 17:58:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:57.95597
- Title: Evaluation Cards: An Interpretive Layer for AI Evaluation Reporting
- Title(参考訳): 評価カード:AI評価レポートの解釈レイヤ
- Authors: Avijit Ghosh, Anka Reuel, Jenny Chim, Wm. Matthew Kennedy, Srishti Yadav, Jennifer Mickel, Yanan Long, Andrew Tran, Anastassia Kornilova, Damian Stachura, Kevin Klyman, Felix Friedrich, Jeba Sania, Jan Batzner, Anoop Mishra, Eliya Habba, Yixiong Hao, Nathan Heath, Shalaleh Rismani, Usman Gohar, Andrea Loehr, David Manheim, Ruchira Dhar, Sree Harsha Nelaturu, Aarush Sinha, Leshem Choshen, Drishti Sharma, Ishan Khire, Amit Saha, Subramanyam Sahoo, Michael Hardy, Michael Alexander Riegler, Kabir Manghnani, Michelle Lin, Yanan Jiang, Yilin Huang, Asaf Yehudai, Jessica Ji, Aris Hofmann, Mubashara Akhtar, Max Lamparth, Nuno Moniz, Yacine Jernite, Stella Biderman, Zeerak Talat, Sanmi Koyejo, Mykel Kochenderfer, Irene Solaiman,
- Abstract要約: AI評価結果は大規模に作成されるが、リーダーボード、モデルカード、ベンチマーク論文、会社のブログ間で矛盾なく報告されている。
最近の取り組みでは、分離されたコンポーネントに対処するが、3つのギャップを残している: それらは評価ライフサイクルの狭いスライスのみをカバーし、単一の解釈可能なレコードに構成しない。
EvalCardsは、ベンチマークメタデータ、評価実行データ、モデルメタデータを統一されたレコードに構成する運用レポート層である。
- 参考スコア(独自算出の注目度): 44.70980205167796
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: AI evaluation results are produced at scale but reported inconsistently across leaderboards, model cards, benchmark papers, and company blogs. The cost is interpretive: readers cannot reliably compare results across sources, identify what a report omits, or trace an aggregate claim to its underlying evidence. Recent efforts address isolated components but leave three gaps: they cover only narrow slices of the evaluation lifecycle and do not compose into a single interpretable record; they specify static representations that do not differentiate the questions different stakeholders bring to the same evidence; and they remain proposals on paper, lacking the extraction infrastructure required for adoption at scale. We present \EvalCards{}, an operational reporting layer that composes benchmark metadata, evaluation run data, and model metadata into a unified record. We (1) derive a reporting schema from a structured review of 52 papers and 10 stakeholder interviews, (2) implement four interpretive signals (reproducibility, documentation completeness, provenance and risk, and score comparability), rendered through reader modes calibrated to research and non-research audiences, and (3) deploy a monitoring tool that applies \EvalCards{} across 5,816 models, 635 benchmarks, and 101,843 results, surfacing systematic gaps in current reporting practice.
- Abstract(参考訳): AI評価結果は大規模に作成されるが、リーダーボード、モデルカード、ベンチマーク論文、会社のブログ間で矛盾なく報告されている。
読者は、情報源間で結果を確実に比較したり、レポートの省略点を特定したり、その根拠となる証拠の集合的主張を追跡できない。
最近の取り組みでは、独立したコンポーネントに対処するが、3つのギャップを残している。それらは評価ライフサイクルの狭いスライスのみをカバーし、単一の解釈可能なレコードに構成しない。
EvalCards{}は,ベンチマークメタデータ,評価実行データ,モデルメタデータを統一されたレコードに構成する運用レポート層である。
1)52件の論文と10件の利害関係者インタビューの構造化レビューから報告スキーマを導出し,(2)再現性,文書完全性,証明とリスク,スコアコンパラビリティの4つの解釈信号(再現性,文書完全性,証明とリスク,スコアコンパラビリティ)を実装し,(3)調査対象と非調査対象に校正された読影モードを通し,(3)5,816モデル,635ベンチマーク,101,843結果に‘EvalCards{}’を適用した監視ツールを配置し,現在の報告実践の体系的ギャップを指摘。
関連論文リスト
- Interactive Evaluation Requires a Design Science [90.62695599188204]
大規模言語モデル(LLM)は、ツールや環境、ユーザ、その他のエージェントを通じて、時間とともに機能するシステムとして、ますます多くデプロイされている。
フィールドはインタラクティブなベンチマークを構築し始めたが、その結果のランドスケープは断片化されている。
本論では,対話的評価は原則的評価パラダイムとして扱うべきであると論じる。
論文 参考訳(メタデータ) (2026-05-18T04:03:18Z) - Rollout Cards: A Reproducibility Standard for Agent Research [15.381365113892848]
論文は、レポートされたスコアでシステムを比較し、それらのスコアの背後にロールアウトレコードを残すことは、検査が困難である。
エージェント的なタスクでは、評価がロールアウトの異なる部分を選択したり、異なるレポートルールを適用する場合、同じ振る舞いが異なるレポートスコアを受け取ることができるため、これが重要です。
50の人気のあるトレーニングと評価レポジトリの構造化監査では、ヘッドラインスコアとともに、実行が失敗、エラー、あるいはスキップされた回数を報告していないことが判明した。
論文 参考訳(メタデータ) (2026-05-12T13:54:31Z) - Deployment-Relevant Alignment Cannot Be Inferred from Model-Level Evaluation Alone [11.663456969895462]
機械学習におけるアライメント評価は、主にモデルの評価となっている。
本稿では, モデルレベルの評価だけでは, 配置関連アライメントを推定できないことを論じる。
論文 参考訳(メタデータ) (2026-05-06T03:28:30Z) - FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification [57.196748998757954]
本稿では,クレーム抽出,文献位置決定,実行に基づくクレーム検証を組み合わせたエビデンスベースレビューシステムであるFactReviewを紹介する。
FactReviewは論文を提出すると、主要なクレームを特定し、その結果を報告し、論文の技術的な位置を明らかにするために近くの作業を取り出し、コードが利用可能であれば、リリースされたリポジトリを実行する。
その後、簡潔なレビューと、主要な請求を5つのラベルのうち1つに割り当てるエビデンスレポートを生成する。
論文 参考訳(メタデータ) (2026-04-05T11:45:22Z) - OpenNovelty: An LLM-powered Agentic System for Verifiable Scholarly Novelty Assessment [63.662126457336534]
OpenNoveltyは、透明で証拠に基づく新規性分析のためのエージェントシステムである。
回収された実論文のすべての評価を根拠にし、検証可能な判断を確実にする。
OpenNoveltyは、公正で一貫性があり、エビデンスに支えられたピアレビューを促進するスケーラブルなツールで、研究コミュニティに力を与えることを目指している。
論文 参考訳(メタデータ) (2026-01-04T15:48:51Z) - Garbage In, Reasoning Out? Why Benchmark Scores are Unreliable and What to Do About It [1.6261897792391753]
我々は、SocialIQa、FauxPas-EAI、ToMiの3つの広く使われている推論ベンチマークの体系的な監査を行う。
ベンチマーク項目と評価手法の両方において,広範な欠陥を明らかにする。
論文 参考訳(メタデータ) (2025-06-30T13:57:28Z) - SummExecEdit: A Factual Consistency Benchmark in Summarization with Executable Edits [31.98028879922584]
SummExecEditという新しいパイプラインとベンチマークを導入し、実際のエラーを検知し、正確な説明を提供する能力についてモデルを評価する。
トップパフォーマンスモデルであるClaude3-Opusは、ベンチマークでわずか0.49のジョイント検出と説明スコアを達成している。
説明ミスの4つの主要なタイプを特定し、その45.4%は、要約の完全に無関係な部分に焦点を当てている。
論文 参考訳(メタデータ) (2024-12-17T23:26:44Z) - How well do you know your summarization datasets? [11.992125069326772]
3つの一般的な要約データセットから600のサンプルを分析した。
続いて、27の最先端の要約モデルと5つの一般的なメトリクスを徹底的に分析する。
論文 参考訳(メタデータ) (2021-06-21T19:44:06Z) - AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。
アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。
我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文 参考訳(メタデータ) (2021-04-01T17:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。