論文の概要: From Uncertain Judgments to Calibrated Rankings: Conformal Elo Estimation for LLM Evaluation
- arxiv url: http://arxiv.org/abs/2606.13221v2
- Date: Fri, 12 Jun 2026 09:52:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 13:53:03.694975
- Title: From Uncertain Judgments to Calibrated Rankings: Conformal Elo Estimation for LLM Evaluation
- Title(参考訳): 不確定判断から校正ランクへ:LLM評価のためのコンフォーマルエロ推定
- Authors: Bora Kargi, David Salinas,
- Abstract要約: 2つの相補的なレベルで、結果の判断と人間の意見の不一致を定量化する。
地方レベルでは、審査員自身のスコア差から、各戦場における不確実性を推定する。
これだけでも、Elo推定精度を大幅に改善する。
- 参考スコア(独自算出の注目度): 3.5637034560362935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating new large language models typically requires costly human annotation campaigns at scale. LLM-as-a-judge offers a cheaper alternative, but judge scores carry systematic errors - such as position bias, self-preference, or intransitivity - that can strongly miscalibrate the resulting rankings. We quantify the resulting judge-human disagreement at two complementary levels. At the local level, we estimate per-battle uncertainty from the judge's own score differences by propagating calibrated win probabilities rather than hard labels into the Bradley-Terry procedure. This alone provides a drastic improvement to Elo estimation accuracy, bringing LLM-derived ratings within 17.9 Elo MAE of human-derived ones when averaged over 55 held-out models on LMArena. At the global level, we apply split conformal prediction to the residual gap between LLM-derived and human-derived Elo ratings across held-out models, producing prediction intervals with distribution-free marginal coverage guarantees that account for irreducible LLM-human disagreement. Together, these two layers yield a low-cost evaluation tool that provides developers with calibrated Elo estimates and honest uncertainty bounds, without access to large-scale human annotations. To facilitate reproducibility, we release our code at https://github.com/kargibora/SoftElo .
- Abstract(参考訳): 新しい大規模言語モデルを評価するには、通常、大規模な人的アノテーションキャンペーンが必要となる。
LLM-as-a-judgeは、より安価な代替手段を提供するが、審査員のスコアは、ポジションバイアス、自己選好、不透過性などの体系的なエラーを持ち、結果のランクを強く誤解することができる。
2つの相補的なレベルで、結果の判断と人間の意見の不一致を定量化する。
局所レベルでは,Bradley-Terry法にハードラベルを組み込むのではなく,キャリブレーションされた勝利確率を伝播させることにより,審査員自身のスコア差から,バトル当たりの不確実性を推定する。
このだけでエロ推定精度は大幅に改善され、LMArenaの55以上の保留モデルにおいて、LLM由来のレーティングは人間由来の17.9 Elo MAEの範囲内となる。
グローバルレベルでは, LLM由来と人間由来のElo評価の残差に対して, LLM由来と人間由来のElo評価の残差に対して分割共形予測を適用し, 既約LLM非ヒトの不一致を考慮に入れた分布自由境界被覆保証付き予測間隔を生成する。
これら2つのレイヤが組み合わさって、開発者が大規模な人的アノテーションにアクセスすることなく、キャリブレーションされたElo推定と正直な不確実性境界を提供する、低コストな評価ツールを提供する。
再現性を促進するため、私たちはhttps://github.com/kargibora/SoftElo でコードを公開しています。
関連論文リスト
- Augmenting Human Evaluation with LLM Judges: How Many Human Reviews Do You Need? [1.111977509278551]
大規模言語モデル(LLM)は、ハイテイクなアプリケーションを含むAIシステムの自動評価手段として、ますます利用されている。
専門家の人間格付けは高価でスケールが難しいが、LSM格付けは低コストで迅速に作成できる。
本稿では,LLM審査員の役割を代用的から補助的へとシフトさせ,LLM-as-a-judgeパラダイムを人的評価の強化の1つとして定式化する。
論文 参考訳(メタデータ) (2026-05-08T17:13:08Z) - CARE: Confounder-Aware Aggregation for Reliable LLM Evaluation [21.96013518286442]
CAREは、判定スコアのための共同設立者対応アグリゲーションフレームワークである。
共有共同設立者の下で、識別可能性と有限サンプル回復に関する理論的保証を提供する。
CAREはアグリゲーションの精度を改善し、エラーを最大26.8%削減する。
論文 参考訳(メタデータ) (2026-02-09T03:17:55Z) - A Judge-Aware Ranking Framework for Evaluating Large Language Models without Ground Truth [4.9467757325435775]
大規模言語モデル(LLM)をオープンなタスクで評価することは、LLM-as-a-judgeパラダイムを通じてますます行われています。
すべての裁判官を平等に扱うことは、偏見のあるリーダーボードを生み出し、不確実性の推定を誤解させる可能性がある。
そこで本研究では,Bradley-Terry-Luceモデルを拡張し,判定固有の識別パラメータを導入することにより,判定対応のランキングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T15:01:28Z) - Bridging Human and LLM Judgments: Understanding and Narrowing the Gap [39.90675202514829]
大規模言語モデルは、モデルアウトプットを大規模に評価するために、審査員(LLM-as-a-judge)として使われることが多い。
我々は、人間とLLMの評価を明示的に橋渡しする統一統計フレームワークであるBridgeを提案する。
論文 参考訳(メタデータ) (2025-08-18T10:14:20Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - Mitigating the Bias of Large Language Model Evaluation [30.67730115141905]
LLM-as-a-Judgeのバイアスに関する系統的研究を提案する。
クローズドソース・ジャッジモデルでは、表面品質の重要性を緩和するためにキャリブレーションを適用する。
オープンソース・ジャッジ・モデルでは, 対照的な学習によってバイアスを軽減し, 学習から逸脱するが, 表面品質が向上する負のサンプルをキュレートする。
論文 参考訳(メタデータ) (2024-09-25T09:52:44Z) - MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
非インパクト的なエラーをフィルタリングするアイデアに基づいて、ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを紹介します。
実験の結果,GEMBA-MQMに対する誤差の信頼性と品質の両方が一貫して改善されていることがわかった。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z) - LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLPMを用いてNLPモデルを評価する傾向が高まっている。
JUDGE-BENCHは20個のNLPデータセットのコレクションで、人間のアノテーションで、幅広い評価された特性やデータの種類をカバーしています。
アノテーションを複製できるため、オープンウェイトモデルとプロプライエタリモデルの両方をカバーする11の現在のLCMを評価します。
論文 参考訳(メタデータ) (2024-06-26T14:56:13Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。