論文の概要: Rank Intervals for Leaderboards: A Hierarchical Framework for Model Evaluation
- arxiv url: http://arxiv.org/abs/2606.08679v1
- Date: Sun, 07 Jun 2026 15:31:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.385235
- Title: Rank Intervals for Leaderboards: A Hierarchical Framework for Model Evaluation
- Title(参考訳): リーダーボードのランクインターバル - モデル評価のための階層的なフレームワーク
- Authors: Bitya Neuhof, Yuval Benjamini,
- Abstract要約: 両レベルの統計的保証を伴うモデルランク間隔を構築する階層的枠組みを導入する。
シミュレーションデータとTabArena と PromptEval のベンチマーク実験により,本手法が統計的に有効かつ情報的間隔を生じることを示す。
- 参考スコア(独自算出の注目度): 4.297070083645049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained models are often evaluated on multi-task leaderboards to measure their applicability in diverse contexts. However, current methods for aggregating performance across tasks into leaderboard-level rankings do not address the uncertainty and variability at the task level. While recent works have proposed interval-based model rankings, the principled aggregation of uncertainty from individual tasks to leaderboard-level rankings remains unaddressed, and variation in models' performance across tasks is frequently obscured. In this work, we introduce a hierarchical framework that constructs model rank intervals with statistical guarantees at both levels: task-level rank confidence intervals from pairwise comparisons, and leaderboard-level rank prediction intervals using a conformal approach. This enables reliable quantification of model rank for each observed task and for new potential tasks. Experiments on simulated data and the TabArena and PromptEval (MMLU) benchmarks show that our method yields statistically valid and informative intervals, enabling reliable, uncertainty-aware model ranking on leaderboards.
- Abstract(参考訳): 事前訓練されたモデルは、様々な文脈で適用性を測定するために、マルチタスクのリーダーボードでしばしば評価される。
しかしながら,タスク間のパフォーマンスをリーダボードレベルのランクに集約する現在の手法では,タスクレベルの不確実性や変動性には対処できない。
近年の研究では、間隔ベースのモデルランキングが提案されているが、個々のタスクからリーダーボードレベルのランキングへの不確実性の原則的な集約は未定であり、タスク間でのモデルの性能の変動はしばしば曖昧である。
本研究では,両レベルの統計的保証を伴うモデルランク間隔を構築する階層的枠組みを提案する。
これにより、観測された各タスクと新しい潜在的なタスクに対するモデルランクの信頼性の高い定量化が可能になる。
シミュレーションデータとMMLU(TabArena and PromptEval)ベンチマークによる実験により,本手法は統計的に有効かつ情報的間隔が得られ,リーダボード上での信頼性,不確実性を考慮したモデルランキングが可能となった。
関連論文リスト
- Low Rank for Rank: Uncertainty-Aware Task-Specific LLM Ranking under Sparse Pairwise Comparisons [16.73008463123115]
低ランク共有は、独立したタスクワイドBradley-Terry推定よりもサンプリング効率を向上させる。
合成データとアリーナの実験により、低ランクの共有は独立したタスクワイドBradley-Terry推定よりもサンプリング効率を向上させることが示された。
論文 参考訳(メタデータ) (2026-05-28T05:44:43Z) - IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - Prompt-Dependent Ranking of Large Language Models with Uncertainty Quantification [9.99813918008511]
我々は、ペアワイズな人選好の下で、プロンプト依存のランキング推定について検討する。
我々は統計的に妥当な不確実性保証を有する意思決定安全ランキングの枠組みを開発する。
論文 参考訳(メタデータ) (2026-02-11T18:16:24Z) - Learning when to rank: Estimation of partial rankings from sparse, noisy comparisons [0.0]
偏位を学習するための原理的非パラメトリックベイズ法(階層付きランク)を開発する。
そこで本研究では,実データと合成データを用いて,本手法の性能について検討する。
論文 参考訳(メタデータ) (2025-01-05T11:04:30Z) - Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。
これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Bipartite Ranking Fairness through a Model Agnostic Ordering Adjustment [54.179859639868646]
本稿では,二部類ランキングにおける公平性を実現するためのモデルに依存しない後処理フレームワークxOrderを提案する。
xOrderは、教師なしおよび教師なしの公正度メトリックを含む、さまざまな分類モデルとランキングフェアネスメトリクスと互換性がある。
提案アルゴリズムを,4つのベンチマークデータセットと2つの実世界の患者電子健康記録リポジトリ上で評価した。
論文 参考訳(メタデータ) (2023-07-27T07:42:44Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。