論文の概要: Quantifying and Auditing LLM Evaluation via Positive--Unlabeled Learning
- arxiv url: http://arxiv.org/abs/2606.19057v1
- Date: Wed, 17 Jun 2026 13:26:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.179976
- Title: Quantifying and Auditing LLM Evaluation via Positive--Unlabeled Learning
- Title(参考訳): 肯定的学習によるLCM評価の定量化と監査
- Authors: Zilong Zhang, Yi-Ting Hung, Lei Ding, Chi-Kuang Yeh,
- Abstract要約: 大規模言語モデル(LLM)は、スケーラブルな評価のための裁判官として、ますます使われています。
LLMは、意味的品質から切り離された体系的なバイアスを示す。
人間の監督は費用がかかり、典型的には選択的であり、信頼できる肯定的な判断を下すが、ほとんどの出力は損なわれず、品質が混ざり合っている可能性がある。
- 参考スコア(独自算出の注目度): 4.114698130306098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly used as judges for scalable evaluation, yet such LLM--as--a--Judge systems exhibit systematic biases that are decoupled from semantic quality, most notably verbosity bias. Meanwhile, human supervision is costly and typically selective, yielding reliable positive judgments but leaving most outputs unlabelled and potentially mixed in quality. We formulate LLM evaluation under selective human supervision as a positive--unlabelled learning problem and propose a geometric auditing framework based on Partial Optimal Transport. By aligning a small set of human--verified positives with a reliable subset of unlabelled outputs in a fixed embedding space, our method identifies human--consistent preferences and corrects biased judges without retraining. Experiments demonstrate improved alignment with human preferences, increased robustness to presentation biases, and interpretable confidence estimates, offering a scalable and statistically grounded alternative to existing LLM--as--a--judge pipelines.
- Abstract(参考訳): 大規模言語モデル (LLM) は, 大規模言語モデル (LLM) をスケーラブルな評価の判断に用いつつあるが, このようなLLM-as-a-Judgeシステムは, 意味的品質から切り離された体系的バイアスを示す。その一方で, 人的監督はコストが高く, 概ね選択的であり, 信頼性の高い肯定的な判断を得られるが, 殆どのアウトプットは問題なく, 品質が混在している。我々は, 選択的人的監督下でのLLM評価を, 正のアンラベリング学習問題として定式化し, 部分的最適移動に基づく幾何的監査フレームワークを提案する。
固定埋め込み空間において,人間の検証された正の小さなセットを信頼できない出力のサブセットと整列させることにより,人間の一貫性のある選好を識別し,偏見のある判断を再訓練せずに修正する。
実験では、人間の好みとの整合性の改善、プレゼンテーションバイアスに対する堅牢性の向上、信頼度推定の解釈が示され、既存のLCM--as-a-judgeパイプラインに代わるスケーラブルで統計的基盤を提供する。
関連論文リスト
- Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - Mitigating the Bias of Large Language Model Evaluation [30.67730115141905]
LLM-as-a-Judgeのバイアスに関する系統的研究を提案する。
クローズドソース・ジャッジモデルでは、表面品質の重要性を緩和するためにキャリブレーションを適用する。
オープンソース・ジャッジ・モデルでは, 対照的な学習によってバイアスを軽減し, 学習から逸脱するが, 表面品質が向上する負のサンプルをキュレートする。
論文 参考訳(メタデータ) (2024-09-25T09:52:44Z) - Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments [41.25558612970942]
大規模言語モデル (LLMs) が優先バイアスを示し, 設計に敏感であることを示す。
この現象に触発された自動ゼロショット評価指向のプロンプト最適化フレームワークZEPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T09:48:53Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。