論文の概要: Are We Evaluating Knowledge or Phrasing? Mitigating MCQA Sensitivity with ParaEval
- arxiv url: http://arxiv.org/abs/2606.10657v1
- Date: Tue, 09 Jun 2026 10:05:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.435092
- Title: Are We Evaluating Knowledge or Phrasing? Mitigating MCQA Sensitivity with ParaEval
- Title(参考訳): 知識評価かプラーシングか? : MCQA感度とパラEval
- Authors: João Maria Janeiro, Mathurin Videau, Andrea Caciolai, Benjamin Piwowarski, Patrick Gallinari, Loic Barrault,
- Abstract要約: MCQA(Multiple-choice)ベンチマークは、事前訓練された大規模言語モデルを評価するための標準である。
回答毎に複数のパラフレーズを用いてモデルをクエリする評価フレームワークであるParaEvalを提案する。
- 参考スコア(独自算出の注目度): 19.15330408774882
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multiple-choice (MCQA) benchmarks are the standard for evaluating pretrained large language models, but their reliance on log-likelihood scoring makes them unreliable. Specifically, standard scores are highly sensitive to the exact phrasing (surface form) of the answers, conflating a model's familiarity with a specific phrase with its actual capability. We demonstrate this flaw using a controlled testbed of 1B-8B models trained on the same knowledge. Despite having identical knowledge, standard metrics falsely report a performance gap of over 2 points. To solve this, we propose ParaEval, an evaluation framework that queries models using multiple paraphrases per answer option. By scoring each model based on its most favorable phrasing, ParaEval successfully reduces the false performance gap to below 1 point. We confirm that these evaluation artifacts, and the improvements from ParaEval, persist in frontier 70B and 120B open-source models. Ultimately, ParaEval provides a robust and efficient way to evaluate true underlying capability rather than surface-form familiarity.
- Abstract(参考訳): MCQA(Multiple-choice)ベンチマークは、事前訓練された大規模言語モデルを評価するための標準であるが、ログライクなスコアリングに依存しているため信頼性が低い。
具体的には、標準スコアは答えの正確なフレーズ(表面形式)に非常に敏感であり、モデルが特定のフレーズに精通していることと実際の能力とを混同している。
同じ知識で訓練された1B-8Bモデルの制御テストベッドを用いて,この欠陥を実証する。
同じ知識を持っているにも関わらず、標準メトリクスは誤って2ポイント以上のパフォーマンスギャップを報告します。
そこで我々はParaEvalを提案する。ParaEvalは、回答ごとに複数のパラフレーズを使ってモデルをクエリする評価フレームワークである。
もっとも好ましい言い回しに基づいて各モデルを評価することで、ParaEvalは偽のパフォーマンスギャップを1ポイント以下に下げることに成功した。
これらの評価アーティファクトとParaEvalの改善が,フロンティア70Bと120Bのオープンソースモデルで継続していることを確認する。
究極的には、ParaEvalは表面形状の親しみよりも、真の基盤能力を評価する堅牢で効率的な方法を提供する。
関連論文リスト
- Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces [14.997092856930061]
Filtered Reasoning Score (FRS)は、最も確実なトレースの上位K%だけを使用して推論品質を計算する。
本稿では,忠実さ,一貫性,実用性,事実性といった次元に沿った推論トレースを評価する推論スコアを提案する。
論文 参考訳(メタデータ) (2026-04-13T19:37:09Z) - IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - Where is this coming from? Making groundedness count in the evaluation of Document VQA models [12.951716701565019]
一般的な評価指標は、モデルの出力のセマンティックおよびマルチモーダルな基礎性を考慮しない。
本稿では,予測の基盤性を考慮した新しい評価手法を提案する。
提案手法は,ユーザが好みに応じてスコアを設定できるようにパラメータ化されている。
論文 参考訳(メタデータ) (2025-03-24T20:14:46Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Enhancing Self-Consistency and Performance of Pre-Trained Language
Models through Natural Language Inference [72.61732440246954]
大規模な事前訓練された言語モデルは、テスト入力間の論理的一貫性を欠いていることが多い。
本研究では,事前学習したNLPモデルの一貫性と精度を高めるためのフレームワークであるConCoRDを提案する。
ConCoRDは、市販のクローズドブックQAおよびVQAモデルの精度と一貫性を一貫して向上することを示す。
論文 参考訳(メタデータ) (2022-11-21T21:58:30Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。