論文の概要: Correct Looks Better: Pairwise Comparisons Reveal Accuracy Rankings
- arxiv url: http://arxiv.org/abs/2606.09409v1
- Date: Mon, 08 Jun 2026 12:26:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.98105
- Title: Correct Looks Better: Pairwise Comparisons Reveal Accuracy Rankings
- Title(参考訳): レビューの正確さと正確さを比べてみた(動画)
- Authors: Mina Remeli, Moritz Hardt,
- Abstract要約: 本研究では, 対比較によるモデルランキングは, 比較対象の真理が得られれば, 地中真理に基づく精度ランキングと強く一致することを示す。
いずれの解答も正解であるようなペアで発生する判断がほとんどであるにもかかわらず、スタイルと判断バイアスはモデルランキングに小さな影響しか与えないことがわかった。
- 参考スコア(独自算出の注目度): 30.711773754965986
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pairwise comparisons combined with aggregation methods like Elo have become central to evaluating generative models, yet concerns remain that they reward superficial stylistic cues or display judge biases. In a more positive turn, we show that model rankings from pairwise comparisons strongly agree with ground-truth-based accuracy rankings when such ground truth is available for comparison. By converting five well-known benchmarks into free-form generative evaluations, we find that Elo rankings achieve a Spearman correlation above 0.9 with accuracy rankings and substantially outperform direct evaluation when the judge is weak. Furthermore, style and judge bias have only minor effects on model rankings, despite most judgments occurring on pairs where both candidate answers are correct (or incorrect). On such pairs, we find that repetition after the final answer (echo) is a causal driver of judge preference.
- Abstract(参考訳): Eloのようなアグリゲーション手法と組み合わせたペアワイズ比較は、生成モデルの評価の中心となっているが、表面的なスタイリスティックな方法や判断バイアスの表示には疑問が残る。
より肯定的なターンでは、ペア比較によるモデルランキングは、そのような基底真理が比較可能である場合に、基底真理に基づく精度ランキングと強く一致することを示す。
5つのよく知られたベンチマークを自由形式生成評価に変換することにより、Eloランキングは、精度の高いランキングで0.9以上のスピアマン相関を達成し、審査員が弱い場合には、かなり優れた直接評価を行う。
さらに、スタイルと判断バイアスはモデルランキングに小さな影響しか与えない。
このようなペアでは、最終回答(echo)の後の繰り返しが判断の選好の因果的ドライバであることが分かる。
関連論文リスト
- Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short [51.667769734342635]
検証可能な報酬付き強化学習(RLVR)は,大規模言語モデルの推論能力向上のための主要なパラダイムとなっている。
本研究では,非多変量報酬群を判定システムにルーティングする適応学習フレームワークであるReasoning Arenaを提案する。
我々は、Reasoning Arenaが、競争数学やコーディングベンチマークにおいて、RLVRベースラインを平均で7.6%上回っていることを示す。
論文 参考訳(メタデータ) (2026-06-08T11:57:17Z) - New insights into Elo algorithm for practitioners and statisticians [0.8122270502556374]
推定ノイズは,ランク付けに使用するモデルと予測に使用するモデルとの間に,原理的な疎結合を強いることを示す。
その結果,全国チームの大半でランキングが収束していなかったことが判明した。
論文 参考訳(メタデータ) (2026-04-04T19:38:28Z) - Does Reasoning Make Search More Fair? Comparing Fairness in Reasoning and Non-Reasoning Rerankers [56.54960821093771]
推論と非推論リランカの公平性の最初の体系的比較を行う。
以上の結果から,非理性アプローチと比較して,理性は改善も公平性も損なわないことが明らかとなった。
論文 参考訳(メタデータ) (2026-03-11T02:01:24Z) - PeerRank: Autonomous LLM Evaluation Through Web-Grounded, Bias-Controlled Peer Review [1.2178992475191557]
完全自律的なエンドツーエンド評価フレームワークであるPeerRankを紹介します。
モデルは評価タスクを生成し、カテゴリスコープによるライブWebグラウンドで答える。
PeerRankは評価を、各モデルがタスクデザイナ、応答者、評価者として対称に参加するマルチエージェントプロセスとして扱う。
論文 参考訳(メタデータ) (2026-02-01T06:01:28Z) - What Is the Optimal Ranking Score Between Precision and Recall? We Can Always Find It and It Is Rarely $F_1$ [17.215680052668244]
F_$誘導ランキングは有意義であり、精度とリコール誘導ランキングの間の最短経路を定義する。
我々は,任意の分布や性能に対して$$の最適値を求めるために,理論ツールとクローズドフォーム式を提供する。
論文 参考訳(メタデータ) (2025-11-27T13:29:50Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - UDA: Unsupervised Debiasing Alignment for Pair-wise LLM-as-a-Judge [23.497453639857852]
本研究では,エロ評価システムを動的に調整することで,不一致を解消する枠組みであるUDAを提案する。
UDAは、すべての裁判官のエロ軌道間の分散を最小限にすることを目的として、完全に教師なしの方法で運営されている。
実験の結果、UDA は Judge の標準偏差を 63.4% まで減少させ、人間の判断との平均的相関を 24.7% 向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-13T11:41:01Z) - J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization [69.23273504123941]
私たちは、より複雑な評価設定で生じる位置バイアスに対して堅牢であるように、裁判官を訓練します。
我々はReasoningJudgeBenchというベンチマークを紹介します。
EIS-GRPOで訓練を受けた7B判事であるReasoning判事(J4R)は、GPT-4oを6.7%、そして9%で上回ります。
論文 参考訳(メタデータ) (2025-05-19T16:50:35Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - Fair Pairs: Fairness-Aware Ranking Recovery from Pairwise Comparisons [2.056289813004423]
本稿では,ペア比較による公平性を考慮したランキング回復の問題を紹介する。
ペア比較から得られたランクの公平度を定量化するグループ条件付き精度尺度を提案する。
論文 参考訳(メタデータ) (2024-08-23T12:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。