論文の概要: Reliability without Validity: A Systematic, Large-Scale Evaluation of LLM-as-a-Judge Models Across Agreement, Consistency, and Bias
- arxiv url: http://arxiv.org/abs/2606.19544v1
- Date: Wed, 17 Jun 2026 19:37:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.50964
- Title: Reliability without Validity: A Systematic, Large-Scale Evaluation of LLM-as-a-Judge Models Across Agreement, Consistency, and Bias
- Title(参考訳): 妥当性のない信頼性:合意、一貫性、バイアスを越えたLCM-as-a-Judgeモデルの体系的、大規模評価
- Authors: Justin D. Norman, Michael U. Rivera, D. Alex Hughes,
- Abstract要約: 実際に判断の検証は、偶然を正さず、系統的に差別能力を過度に過大評価する、正確な一致の合意に依存している。
MT-Bench, judgeBench, RewardBenchの9つのプロバイダから21人の審査員が, 118ラン以上の3つのプロトコル(アグリメント, 一貫性, バイアス監査)と約541,000の個人判定で評価された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-as-a-Judge has become the dominant evaluation paradigm for language models, but judge validation in practice relies on exact-match agreement, a metric that does not correct for chance and systematically overstates discriminative ability. We present the largest systematic evaluation of LLM-as-a-Judge to date: 21 judges from nine providers across MT-Bench, JudgeBench, and RewardBench, evaluated under three protocols (agreement, consistency, bias audit) over 118 runs and approximately 541,000 individual judgments. Four findings emerge, consistent across the full cohort, including the April 2026 frontier: kappa deflation between exact match and Cohen's kappa is universal (33--41 pp on MT-Bench), judge rankings shift by up to 14 positions across benchmarks, high test--retest reliability (>0.95) coexists with severe position bias (>0.10) in two production-deployed judges (instantiating a consistency--bias paradox), and verbosity bias is small (<0.011) across our cohort under a single pairwise rubric. We distill these into a Minimum Viable Validation Protocol.
- Abstract(参考訳): LLM-as-a-Judgeは言語モデルにおいて支配的な評価パラダイムとなっているが、実際は判断の検証は正当整合の合意に依存している。
MT-Bench, judgeBench, RewardBenchの9つのプロバイダから21人の審査員が, 118ラン以上の3つのプロトコル(アグリメント, 一貫性, バイアス監査)と約541,000の個人判定で評価された。
2026年4月のフロンティアでは, 正マッチとコーエンのカッパのカッパのデフレは普遍的(33--41 pp on MT-Bench), 判定ランクはベンチマークで最大14位まで変化し, 厳密な位置バイアス (>0.10) を持つ高いテスト-再テスト信頼性 (>0.95) の共存者が2人の生産担当判事(一貫性-バイアスパラドックスの実証), 動詞のバイアスが1対のルーリックの下でコホート全体で小さい(0.011)。
我々はこれらを最小生存検証プロトコルに蒸留する。
関連論文リスト
- Knowledge Index of Noah's Ark [63.143852586221534]
KINAは,261分野にわたる899項目のベンチマークである。
ボーナス・オン・バートーナメントがFOSDを弱く支配していることを示す。
トップモデルであるGemini-3.1-Pro-Previewは53.17%、Claude-Opus-4.6は49.92%、GPT-5.4は48.55%に達した。
論文 参考訳(メタデータ) (2026-06-03T17:06:49Z) - Judging the Judges: A Systematic Evaluation of Bias Mitigation Strategies in LLM-as-a-Judge Pipelines [0.0]
4つのプロバイダファミリーの5つの審査モデルに対して,9つのデバイアスング戦略を比較した。
スタイルバイアスは支配的バイアス(全モデルで0.76-0.92)であり、位置バイアス(=0.04)をはるかに超えている。
統合予算戦略により、Claude Sonnet 4 は+11.2 pp (p 0.0001) に大幅に改善され、他のモデルの方向性に好意的な傾向が見られた。
論文 参考訳(メタデータ) (2026-04-25T07:18:30Z) - Understanding LLM Evaluator Behavior: A Structured Multi-Evaluator Framework for Merchant Risk Assessment [26.786161923794115]
大規模言語モデル(LLM)は、推論品質の評価手段としてますます使われていますが、その信頼性と支払いリスク設定の偏りはよく分かっていません。
本稿では,Merchant Category Code(MCC)に基づく商業リスク評価において,LCM推論を評価するための構造化マルチ評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-04T22:55:16Z) - Judge's Verdict: A Comprehensive Analysis of LLM Judge Capability Through Human Agreement [1.5191981795942073]
本研究では,Large Language Models (LLMs) を応答精度評価タスクの判定対象として,新たな2段階評価手法を提案する。
RAG(Retrieval-Augmented Generation)やAgentic Pipelines(Agentic Pipelines)からの応答を、地上の真実の答えに対して評価すると、54個のLLMが人間の判断をいかにうまく再現できるかを評価する。
論文 参考訳(メタデータ) (2025-10-10T17:27:33Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。