論文の概要: Metric Match: A Subset Selection Approach to Evaluating LLM Judge Reliability
- arxiv url: http://arxiv.org/abs/2606.15029v1
- Date: Fri, 12 Jun 2026 23:54:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.65767
- Title: Metric Match: A Subset Selection Approach to Evaluating LLM Judge Reliability
- Title(参考訳): Metric Match: LLM判定信頼性評価のためのサブセット選択手法
- Authors: Alyssa Unell, Natalie Dullerud, Naomi Boneh, Meena Jagadeesan, Tatsu Hashimoto, Nigam Shah, Sanmi Koyejo,
- Abstract要約: 限定アノテーションからLLM判定器の相関に基づく信頼性指標を推定する手法を開発した。
Metric Matchは、サブセットが人口信頼度と一致するように、人間のアノテーションのためのサンプルのサブセットを選択する。
我々は,Metric Matchがランダムなサブセット選択に対して0.838の勝利率を達成することを実証的に示す。
- 参考スコア(独自算出の注目度): 28.15461581779256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM judges are used to reduce the need for costly human labor in evaluating open-ended text generation. However, the reliability of these judges depends critically on their alignment with human raters -- a property that itself depends on costly human annotations. In this work, we develop a method (Metric Match) for estimating correlation-based reliability metrics of LLM judges from limited annotations. Metric Match selects a subset of samples for human annotation such that the subset matches the population reliability metric with respect to acquired synthetic labels. We empirically show that Metric Match achieves a win-rate of 0.838 against random subset selection across four different correlation metrics and 15 datasets, with an 18.7% decrease in average estimation error and reduces annotation needs by 32.5%. We provide a cost model and highlight a medical case study where our method saves $1,041.67 compared to random selection for expert annotation. Further, we shift our task from reliability estimation to reliability classification of whether a given judge is above a deployment threshold, outperforming random selection with Metric Match. All project code is publicly available, and we additionally provide an installable package for ease of use.
- Abstract(参考訳): LLM審査員は、オープンエンドテキスト生成の評価において、コストのかかる人的労働の必要性を減らすために使用される。
しかし、これらの審査員の信頼性は、人間との整合性にも大きく依存する。
本研究では,限定アノテーションからLLM判定器の相関に基づく信頼性指標を推定する手法(メトリックマッチング)を開発した。
Metric Matchは、取得した合成ラベルに対して、サブセットが人口信頼度と一致するように、人間のアノテーションのためのサンプルのサブセットを選択する。
実験により,Metric Matchは4つの異なる相関指標と15のデータセットのランダムなサブセット選択に対して0.838の勝利率を達成し,平均推定誤差が18.7%減少し,アノテーションの必要性が32.5%減少することを示した。
提案手法は,専門家のアノテーションに対するランダム選択に比べて1,041.67ドル節約する医療ケーススタディを提示する。
さらに,我々のタスクを信頼性推定から信頼性分類にシフトし,ある判断者が配置閾値を超えるか否かを判断し,メトリックマッチングによるランダム選択よりも優れることを示す。
すべてのプロジェクトコードが公開されており、簡単に使えるインストール可能なパッケージも提供しています。
関連論文リスト
- From Uncertain Judgments to Calibrated Rankings: Conformal Elo Estimation for LLM Evaluation [3.5637034560362935]
2つの相補的なレベルで、結果の判断と人間の意見の不一致を定量化する。
地方レベルでは、審査員自身のスコア差から、各戦場における不確実性を推定する。
これだけでも、Elo推定精度を大幅に改善する。
論文 参考訳(メタデータ) (2026-06-11T11:38:05Z) - Distribution-Calibrated Inference time compute for Thinking LLM-as-a-Judge [5.855996386998925]
大きな言語モデル(LLM)をペアの選好の判断に使用すると、単一サンプルレベルではノイズが残る。
本研究では,各項目ごとにn個の独立した思考型サンプルを生成する評価器の推論時間計算(ITC)について検討する。
論文 参考訳(メタデータ) (2025-12-02T18:46:47Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs [7.197702136906138]
モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。
現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。
我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
論文 参考訳(メタデータ) (2025-05-29T20:45:18Z) - Claim Extraction for Fact-Checking: Data, Models, and Automated Metrics [0.0]
FEVERFactデータセットを公開し、4Kの文脈化されたウィキペディア文から17Kの原子的事実クレームを抽出した。
各メトリクスに対して、既に探索されたNLPタスクへの還元を用いてスケールを実装する。
我々の最も難しい指標である$F_fact$のランク付けされたモデルが変化しないことを確認するため、一般的なクレームの人間のグレーティングに対してメトリクスを検証する。
論文 参考訳(メタデータ) (2025-02-07T14:20:45Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z) - Estimation of Fair Ranking Metrics with Incomplete Judgments [70.37717864975387]
本研究では,4つの評価指標のサンプリング手法と推定手法を提案する。
ラベル付きアイテムの数が極めて少ない場合でも動作可能な頑健で偏りのない推定器を定式化する。
論文 参考訳(メタデータ) (2021-08-11T10:57:00Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。