論文の概要: On the Stability of Prompt Ranking in Large Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2606.24381v1
- Date: Tue, 23 Jun 2026 10:13:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.897812
- Title: On the Stability of Prompt Ranking in Large Language Model Evaluation
- Title(参考訳): 大規模言語モデル評価におけるプロンプトランキングの安定性について
- Authors: Shaoshuai Du, Penghao Liang, Yixian Shen, Chuanqi Shi, Hang Zhang, Lun Wang,
- Abstract要約: 本稿では,ランダムシードや限定評価サブセットなど,変数の共通源下でのランク付け安定性について系統的に検討する。
全体的なランク相関は、しばしば適度に高いが、トップパフォーマンスのアイデンティティは頻繁に変化し、信頼性の低い選択決定につながる。
本稿では,性能と分散性の両方を考慮し,信頼度を低くした簡易な安定性を考慮した選択戦略を提案する。
- 参考スコア(独自算出の注目度): 9.718200364661675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-based interaction has become a dominant paradigm for using large language models (LLMs), where multiple candidate prompts are evaluated and the top-ranked one is selected for downstream use. This workflow implicitly assumes that prompt rankings are stable under minor variations in evaluation conditions. In this paper, we systematically study prompt ranking stability under common sources of variability, including random seeds and limited evaluation subsets. Across three open-weight LLMs and two benchmark tasks, we find that while overall rank correlations are often moderate to high, the identity of the top-performing prompt frequently changes, leading to unreliable selection decisions. To address this issue, we propose a simple stability-aware selection strategy based on a lower confidence bound, which accounts for both performance and variance. Our results show that this approach improves robustness in unstable settings while remaining competitive in more stable regimes. These findings highlight the importance of accounting for evaluation uncertainty in prompt selection and LLM benchmarking.
- Abstract(参考訳): プロンプトベースのインタラクションは、複数の候補プロンプトが評価され、上位のプロンプトが下流での使用のために選択される、大規模言語モデル(LLM)を使用する主要なパラダイムとなっている。
このワークフローは、評価条件の小さなバリエーションの下で、迅速なランク付けが安定であると暗黙的に仮定する。
本稿では,ランダムシードや限定評価サブセットなど,共通変数源下でのランキング安定性について,系統的に検討する。
3つのオープンウェイトLLMと2つのベンチマークタスクで、全体的なランク相関はしばしば適度に高いが、トップパフォーマンスの同一性はしばしば変化し、信頼性の低い選択決定が導かれる。
この問題に対処するために,性能と分散性の両方を考慮し,信頼度を低くした簡易な安定対応選択戦略を提案する。
提案手法は不安定な環境下でのロバスト性を高めつつ,より安定な環境下での競争力を維持することを示す。
これらの知見は、迅速な選択とLCMベンチマークにおける評価の不確実性を評価することの重要性を浮き彫りにしている。
関連論文リスト
- Boosting Self-Consistency with Ranking [56.38798757709555]
自己整合性は、複数の推論パスをサンプリングし、最も頻繁な回答を選択することで、大きな言語モデルを改善する。
この制限は、自己整合性における解答選択をランク付け問題として再構成する、ランク付け改善自己整合性(RISC)に対処する。
論文 参考訳(メタデータ) (2026-06-03T16:12:30Z) - Robust Checkpoint Selection for Multimodal LLMs via Agentic Evaluation and Stability-Aware Ranking [0.4562811934651716]
評価の不確実性の下では、チェックポイントの選択を堅牢な決定問題として定式化する。
実世界のキュレートされたデータ、構造化LCMに基づく判断、および多段階ランキングプロトコルを統合する多段階フレームワークを提案する。
我々は、データ品質、特にOCR可読性は、評価の妥当性の重要な決定要因であることを示した。
論文 参考訳(メタデータ) (2026-05-13T12:18:32Z) - Multimodal Learning on Low-Quality Data with Conformal Predictive Self-Calibration [72.0672328514289]
マルチモーダル学習は、しばしば低品質データの課題に悩まされる。
コンフォーマル予測自己校正(Conformal Predictive Self-Calibration)と呼ばれる統合フレームワークを提案する。
私たちのフレームワークは、既存の最先端メソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2026-05-05T14:48:52Z) - STABLEVAL: Disagreement-Aware and Stable Evaluation of AI Systems [3.263813419432528]
多数決はアノテータの信頼性と項目レベルの曖昧さを捨て、しばしば不安定な比較をもたらす。
本稿では,不一致を考慮した評価フレームワークSTABLEVALを紹介する。
STABLEVALは、安定かつ不確実性を認識したシステム評価のために設計されている。
論文 参考訳(メタデータ) (2026-05-04T01:03:48Z) - Permutation-Consensus Listwise Judging for Robust Factuality Evaluation [0.8563354084119061]
リストワイド事実性評価における候補順序感度について検討した。
そこで我々は,PCFJudgeを紹介した。PCFJudgeは,同一候補集合の複数の順序に対して,同じ事実を優先的にリストワイズする推論時手法である。
RewardBench 2 Factualityでは、PCFJudgeは最大7つの絶対点による直接判定よりも改善される。
論文 参考訳(メタデータ) (2026-03-20T23:35:14Z) - RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty [102.02839046225468]
RankLLMは質問の難しさとモデルの能力の両方を定量化する新しいフレームワークである。
複数のドメインにまたがる35,550の質問に対して30のモデルを評価する。
論文 参考訳(メタデータ) (2026-02-12T21:28:46Z) - Prompt-Dependent Ranking of Large Language Models with Uncertainty Quantification [9.99813918008511]
我々は、ペアワイズな人選好の下で、プロンプト依存のランキング推定について検討する。
我々は統計的に妥当な不確実性保証を有する意思決定安全ランキングの枠組みを開発する。
論文 参考訳(メタデータ) (2026-02-11T18:16:24Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - In-context Ranking Preference Optimization [65.5489745857577]
In-context Ranking Preference Optimization (IRPO) フレームワークを提案する。
IRPOは標準のDPO手法よりも高い性能を示し、LLMと直接文脈内ランキング設定の整合性を強調した。
論文 参考訳(メタデータ) (2025-04-21T23:06:12Z) - Measuring the Inconsistency of Large Language Models in Preferential Ranking [6.723531714964794]
本研究では、一貫した順序的嗜好を提供するための大規模言語モデルの能力について検討する。
順序理論に基づく一貫性の形式化を導入し、推移性、非対称性、可逆性、無関係な代替品からの独立性などの基準を概説する。
これらの基準を満たすことができず, 位置バイアスが強く, 移動度が低いことが示唆された。
論文 参考訳(メタデータ) (2024-10-11T14:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。