論文の概要: Prompt Perturbation for Reliable LLM Evaluation over Comparison Graphs
- arxiv url: http://arxiv.org/abs/2606.17634v1
- Date: Tue, 16 Jun 2026 07:44:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.337367
- Title: Prompt Perturbation for Reliable LLM Evaluation over Comparison Graphs
- Title(参考訳): 比較グラフを用いた信頼性LLM評価のためのプロンプト摂動
- Authors: Dong Huang, Jianbo Sun, Pengkun Yang,
- Abstract要約: 大きな言語モデル(LLM)を評価することは、その能力を理解し、競合するシステムを比較し、実際に信頼できるモデルのデプロイをサポートするために重要である。
オープンエンドタスクでは、同じプロンプトに対する2つの応答を比較し、その結果の判断を総合的なランキングに集約する、ペアワイズ評価が一般的なパラダイムとなっている。
このパラダイムの中心的な課題は、非推移性(intransitivity)である。
- 参考スコア(独自算出の注目度): 10.095945693317079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating large language models (LLMs) is important for understanding their capabilities, comparing competing systems, and supporting the deployment of reliable models in practice. For open-ended tasks, pairwise evaluation has become a popular paradigm, in which two responses to the same prompt are compared and the resulting judgments are aggregated into an overall ranking. A central challenge of this paradigm is intransitivity: the induced comparison outcomes may fail to support any coherent global ranking. For example, one may observe cyclic preferences such as $A \succ B \succ C \succ A$, or inconsistencies involving ties such as $A \equiv B\equiv C\neq A$. Such contradictions make the resulting leaderboard unstable and challenging to interpret. In this paper, we propose a prompt perturbation framework for improving the consistency of pairwise LLM evaluation. Our approach generates perturbed variants of each prompt, uses the resulting comparison graphs to identify and filter out structurally inconsistent comparison patterns, and then applies standard ranking methods to the filtered comparisons. A key feature of the proposed framework is that graph-level structural consistency is incorporated explicitly into the evaluation pipeline before ranking aggregation. This provides a simple and principled way to reduce cyclic inconsistencies and improve the reliability of LLM rankings.
- Abstract(参考訳): 大きな言語モデル(LLM)を評価することは、その能力を理解し、競合するシステムを比較し、実際に信頼できるモデルのデプロイをサポートするために重要である。
オープンエンドタスクでは、同じプロンプトに対する2つの応答を比較し、その結果の判断を総合的なランキングに集約する、ペアワイズ評価が一般的なパラダイムとなっている。
このパラダイムの中心的な課題は、非推移性(intransitivity)である。
例えば、$A \succ B \succ C \succ A$ のような巡回選好や、$A \equiv B\equiv C\neq A$ のような関係を含む矛盾を観察することができる。
このような矛盾は、結果のリーダーボードを不安定にし、解釈を困難にする。
本稿では,ペアワイズLLM評価の整合性を改善するための急激な摂動フレームワークを提案する。
提案手法は各プロンプトの摂動変異を生成し, 得られた比較グラフを用いて構造的に一貫性のない比較パターンを特定し, フィルタした比較に標準ランキング法を適用した。
提案フレームワークの重要な特徴は,グラフレベルの構造的整合性が集計の前に評価パイプラインに明示的に組み込まれている点である。
これにより、循環的不整合を低減し、LLMランキングの信頼性を向上させるためのシンプルで原則化された方法が提供される。
関連論文リスト
- From Isolated Scoring to Collaborative Ranking: A Comparison-Native Framework for LLM-Based Paper Evaluation [12.13840753234467]
大規模言語モデル (LLM) は現在, 各論文に絶対スコアを独立に割り当てることで, 科学的論文評価に応用されている。
孤立スコアから協調ランキングへの紙評価のシフトを提案する。
当社のフレームワークは,強力なベースラインであるDeepReview-14Bに対して,textbf21.8%の平均相対的な改善を実現している。
論文 参考訳(メタデータ) (2026-03-18T10:55:02Z) - IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - GRCF: Two-Stage Groupwise Ranking and Calibration Framework for Multimodal Sentiment Analysis [20.77940776708036]
ペアワイズな順序学習フレームワークは、比較から学ぶことで相対的な順序を捉える。
彼らは全ての比較に均一な重要性を割り当て、ハード・ツー・ランクのサンプルに適応的に焦点をあてることに失敗した。
本稿では,グループ相対的政策最適化の理念を取り入れた二段階群ランク付け・フレームワークを提案する。
GRCFは、コア回帰ベンチマークで最先端のパフォーマンスを達成すると同時に、分類タスクにおいて強力な一般化性を示す。
論文 参考訳(メタデータ) (2026-01-14T16:26:44Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Leveraging Reference Documents for Zero-Shot Ranking via Large Language Models [16.721450557704767]
RefRankは、固定参照文書に基づく単純で効果的な比較ランク付け手法である。
RefRankはポイントワイドのベースラインをはるかに上回り、少なくともペアワイドのアプローチと同等のパフォーマンスを達成できることを示した。
論文 参考訳(メタデータ) (2025-06-13T04:03:09Z) - Language Model Preference Evaluation with Multiple Weak Evaluators [89.90733463933431]
PGEDは,複数のモデルに基づく評価器を用いて嗜好グラフを構築し,非循環的非競合性評価結果に対してこれらのグラフをアンサンブルし,デノテーズする手法である。
1)評価のためのモデルランキング、2)テスト時間スケーリングのための応答選択、3)モデル微調整のためのデータ選択である。
論文 参考訳(メタデータ) (2024-10-14T01:57:25Z) - LLM-RankFusion: Mitigating Intrinsic Inconsistency in LLM-based Ranking [17.96316956366718]
大規模言語モデル(LLM)によるランク付けは、現代の情報検索(IR)システムにおいて有望な性能を達成することができる。
ソートに基づく手法では、パスを正しくソートするには一貫した比較が必要であり、LCMがしばしば違反することを示す。
LLMベースのランキングフレームワークであるLLM-RankFusionを提案する。
論文 参考訳(メタデータ) (2024-05-31T23:29:42Z) - Learning by Sorting: Self-supervised Learning with Group Ordering
Constraints [75.89238437237445]
本稿では,対照学習目標である群順序制約(GroCo)の新たなバリエーションを提案する。
正の対と負の対の距離をソートし、正の対が負の対よりも多くの距離を持つかに基づいてそれぞれの損失を計算するという考え方を利用しており、したがって正しく順序付けされていない。
各種自己教師付き学習ベンチマークの定式化について検討し、バニラのコントラスト学習と比較して結果が向上するだけでなく、k-NNの性能において、線形探索や性能向上において同等の手法と競合する性能を示すことを示す。
論文 参考訳(メタデータ) (2023-01-05T11:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。