論文の概要: Illusions of the Gold Standard: A Large-scale Analysis of Human Evaluation Protocols for Long-form Text Generation
- arxiv url: http://arxiv.org/abs/2606.07936v2
- Date: Tue, 09 Jun 2026 12:36:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 13:21:50.713161
- Title: Illusions of the Gold Standard: A Large-scale Analysis of Human Evaluation Protocols for Long-form Text Generation
- Title(参考訳): 金標準のイリュージョン:長文テキスト生成のための人間評価プロトコルの大規模分析
- Authors: Katelyn Xiaoying Mei, Yi-Li Hsu, Minjoon Choi, Zongwan Cao, Chenjun Xu, Bingbing Wen, Su Lin Blodgett, Lucy Lu Wang,
- Abstract要約: 長文生成タスク評価のための評価プロトコルを大規模に分析する。
人間の評価研究デザインの重要な側面について,広く報告されている。
- 参考スコア(独自算出の注目度): 16.435716847925313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human evaluation plays a critical role in assessing the quality of generated text. However, the reliability and reproducibility of these evaluations depend on transparent and well-documented protocols -- details that are frequently missing in current practice. In this work, we conduct a large-scale analysis of human evaluation protocols for evaluating long-form generation tasks in *CL conference publications from 2023--2025, including a full manual review of 284 papers and LLM-assisted analysis for another 1.8k+ papers. We define a set of 20 reportable criteria related to reproducibility of human evaluation studies, and apply these criteria to systematically examine reporting norms and practices within the community. We find widespread under-reporting of important aspects of human evaluation study design, leading to ambiguity about what was measured and how, who contributed judgments, and how judgments should be interpreted. Based on these findings, we outline actionable recommendations to support more transparent and reproducible reporting in future research. Our analysis code and annotated dataset can be found at: https://github.com/larchlab/Illusions-of-the-Gold-Standard
- Abstract(参考訳): 人間の評価は、生成されたテキストの品質を評価する上で重要な役割を果たす。
しかしながら、これらの評価の信頼性と再現性は、透明で文書化されたプロトコルに依存します。
本研究では,2023年から2025年にかけての *CL 会議において,284 論文の全マニュアルレビューと 1.8k 以上の論文に対する LLM 支援分析を含む,長期化タスクを評価するためのヒューマン評価プロトコルを大規模に分析する。
人間の評価研究の再現性に関連する20の報告可能な基準を定義し,これらの基準を適用し,コミュニティ内の報告規範と実践を体系的に検証する。
人間の評価研究デザインの重要な側面を広く報告し、測定対象と、誰が判断に貢献したか、どのように判断を解釈すべきかの曖昧さに繋がった。
これらの知見に基づき、今後の研究において、より透明で再現可能な報告を支援するための行動可能な勧告を概説する。
分析コードと注釈付きデータセットは、https://github.com/larchlab/Illusions-of-the-Gold-Standardで確認できます。
関連論文リスト
- PRAIB: Peer Review AI Benchmark of Behaviour of LLM-Assisted Reviewing [0.0]
Peer Review AI Benchmark (PRAIB)は、レビューの具体性、スタイル、エンゲージメントの振る舞いを測定する、徹底的に定義されたメトリクスで構成されるフレームワークである。
我々は、1000 ICLRおよびNeurIPSの論文に対して、5つのプロプライエタリおよびオープンソースモデルによって生成される11,000のレビューのデータセットを活用する大規模な実証的研究を行う。
分析の結果,人的レビュアーのフィードバックから生成したレビューが著しく逸脱していることが判明した。
論文 参考訳(メタデータ) (2026-05-28T11:59:54Z) - Evaluating the Evaluators: Are readability metrics good measures of readability? [36.138020084479784]
平易な言語要約 (PLS) は, 複雑な文書を, 専門家でない聴衆のために, アクセス可能な要約に抽出することを目的としている。
Flesch-Kincaid Grade Level (FKGL)のような従来の可読性指標は、PLSの人間の可読性判定と比較されていない。
言語モデル(LM)は可読性の判断に優れており,Pearsonと人間の判断との相関が0.56であることを示す。
論文 参考訳(メタデータ) (2025-08-26T17:38:42Z) - Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。
本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。
182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文 参考訳(メタデータ) (2025-08-14T16:18:37Z) - Recommendations and Reporting Checklist for Rigorous & Transparent Human Baselines in Model Evaluations [0.5828231493848942]
ヒューマンパフォーマンスのベースラインは、機械学習コミュニティ、下流のユーザ、そして政策立案者がAI評価を解釈するために不可欠である。
モデルは「超人的」な性能を達成するとしばしば主張されるが、既存のベースライン法は十分な厳密さも十分に文書化されておらず、性能の違いをしっかりと測定し評価することができない。
我々は,提案する勧告を,基礎モデル評価において115人のベースラインを体系的にレビューするために使用するチェックリストに合成する。
論文 参考訳(メタデータ) (2025-06-09T04:08:16Z) - Identifying Aspects in Peer Reviews [59.02879434536289]
我々は、ピアレビューのコーパスからアスペクトを抽出するデータ駆動スキーマを開発した。
我々は、アスペクトを付加したピアレビューのデータセットを導入し、コミュニティレベルのレビュー分析にどのように使用できるかを示す。
論文 参考訳(メタデータ) (2025-04-09T14:14:42Z) - LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLPMを用いてNLPモデルを評価する傾向が高まっている。
JUDGE-BENCHは20個のNLPデータセットのコレクションで、人間のアノテーションで、幅広い評価された特性やデータの種類をカバーしています。
アノテーションを複製できるため、オープンウェイトモデルとプロプライエタリモデルの両方をカバーする11の現在のLCMを評価します。
論文 参考訳(メタデータ) (2024-06-26T14:56:13Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。