論文の概要: CELEUS: Certifiable and Efficient LLM Evaluation via E-Processes
- arxiv url: http://arxiv.org/abs/2606.20820v1
- Date: Thu, 18 Jun 2026 18:07:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 12:45:13.737074
- Title: CELEUS: Certifiable and Efficient LLM Evaluation via E-Processes
- Title(参考訳): CELEUS:E-ProcessesによるLLM評価の認定と有効性
- Authors: Zhijian Zhou, Zesheng Ye, Zhaorun Chen, Bo Li, Feng Liu,
- Abstract要約: リアルタイムCI構築にEプロセスを活用する,効率的なLCM評価のための認証フレームワークを提案する。
このような信号は、過去の評価スコア条件に偏りがないままであり、統計的に座屈したCIと任意の有意なCIが可能であることを証明している。
実験の結果、Celeusはベースラインよりも54-62%少ない評価サンプルを使用して目標精度に達した。
- 参考スコア(独自算出の注目度): 18.54239835812274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can we trust evaluation scores to capture an LLM's true real-world performance? Certifiable evaluation answers this question by providing guarantee for LLM evaluation. In particular, existing methods sequentially curate evaluation samples and keep updating confidence intervals (CIs) that cover the true performance with high probability (e.g., 95%) until some conditions are satisfied, e.g., the CI width reaches a target precision. However, existing methods are not generally anytime-valid: the claimed coverage (e.g., 95%) may fail when CIs are repeatedly updated and used to decide when to stop, leaving a gap between theoretical rigor and practice. This paper bridges this gap by proposing Celeus, a Certifiable framework for Efficient LLM evaluation, which leverages E-processes to build anytime-valid CIs. Concretely, we propose signals that combine two ingredients: (i) Uncertainty-guided sampling to select informative samples for evaluation, and (ii) Surrogate-assisted approximations for unevaluated samples. We prove that such signals remain unbiased for the evaluation score conditional on the past, enabling statistically-grounded and anytime-valid $e$-process CIs. More importantly, the two ingredients reduce estimation variance and help reach the target precision with fewer evaluated samples. We also prove that CIs obtained by Celeus can shrink at a near-parametric rate up to logarithmic factors and analyze the oracle variance-optimal sampling rule that motivates the empirical uncertainty-guided one. Experiments show that Celeus reaches the target precision using 54-62% fewer evaluated samples than baselines, while preserving anytime-valid coverage.
- Abstract(参考訳): LLMの真の実世界のパフォーマンスを捉えるために評価スコアを信頼できますか?
LLM評価の保証を提供することで、認定評価がこの質問に答える。
特に、いくつかの条件を満たすまで、評価サンプルを逐次キュレートし、真の性能を高い確率(例えば95%)でカバーする信頼区間(CI)を更新する既存の手法では、CI幅が目標精度に達する。
主張されたカバレッジ(95%など)は、CIが繰り返し更新され、いつ停止するかを決めるために使用されると失敗し、理論的な厳密さと実践のギャップが残る。
本稿では,効率的なLCM評価のための認証フレームワークであるCeleusを提案し,Eプロセスを活用して任意のリアルタイムCIを構築することにより,このギャップを埋める。
具体的には,2つの成分を組み合わせた信号を提案する。
一 評価のための情報的サンプルを選択するための不確実性誘導サンプリング及び
(II)未評価試料のサロゲート支援近似
このような信号は、過去の評価スコア条件に偏りがないままであり、統計的にグラウンド化され、任意の時価$e$プロセスCIを可能にする。
さらに重要なことは、この2つの材料は評価値のばらつきを低減し、より少ない評価サンプルで目標精度に達するのに役立つ。
また,Celeusにより得られたCIは対数的因子までほぼパラメトリックな速度で縮小し,経験的不確実性誘導を動機付けるオラクル分散最適サンプリング則を解析できることも証明した。
実験の結果、Celeusはベースラインよりも54-62%少ない評価サンプルを使用して目標精度に達した。
関連論文リスト
- Crossing the Validation Crisis: Cross-Validation Reduces Benchmarking Variance Surprisingly Well [15.198198886832595]
学習アルゴリズムの性能の評価・比較において,クロスバリデーションにより信頼性が著しく向上することを示す。
サンプルゲインの概念を導入し、複数のクロスバリデーション分割を用いて実現した仮想データ拡張を定量化する。
論文 参考訳(メタデータ) (2026-06-10T18:03:19Z) - A Semantic-Sampling Framework for Evaluating Calibration in Open-Ended Question Answering [19.55210880950831]
予測されたモデルの信頼度がその経験的精度と一致しているかを測り、大規模言語モデル(LLM)の信頼性デプロイメントの中心となる。
オープンエンド質問応答(QA)のための校正評価フレームワークSem-ECEを紹介する。
フレームワーク内の2つの推定器について検討する。同じサンプルの自己整合性スコアであるSem$-ECEと、自信評価から回答の選択を分離する保留変数であるSem$-ECEである。
論文 参考訳(メタデータ) (2026-05-08T19:53:49Z) - Confident Rankings with Fewer Items: Adaptive LLM Evaluation with Continuous Scores [25.638175689769934]
IRTベースの適応テストの原則的拡張を連続有界スコア(ROUGE, BLEU, LLM-as-a-Judge)に適用する。
本稿では,信頼性の高いモデルランキングを実現するための適応的停止基準付き不確実性意識ランクアを導入し,できるだけ少数の項目をテストする。
提案手法では,各項目の2%をランダムサンプリングよりも格付け相関を0.12改善し,95%の精度で信頼度予測を行う。
論文 参考訳(メタデータ) (2026-01-20T11:59:13Z) - Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data? [82.09573568241724]
EssenceBenchは反復遺伝的アルゴリズム(GA)を利用した粗粒度フレームワーク
提案手法は, 再構成誤差が低く, 効率が著しく向上した, 優れた圧縮結果が得られる。
HellaSwagベンチマーク(10Kサンプル)では,25倍少ないサンプルを用いて,全モデルが5%以内の順位を保ち,わずか200倍少ないサンプルを用いて,95%未満のランキング保持シフトを達成している。
論文 参考訳(メタデータ) (2025-10-12T05:38:10Z) - Importance Sampling is All You Need: Predict LLM's performance on new benchmark by reusing existing benchmark [38.42021928363628]
既存のベンチマークは、(1)高品質なテストスイートと参照ソリューションを構築するためのエスカレートコスト、(2)データ汚染のリスクの増加という2つの大きな課題に直面している。
我々は,コード生成タスク上でのLLM性能のゼロトラストフリー予測を可能にする,プロンプト中心評価フレームワークであるBISを提案する。
本フレームワークでは,コード正当性スコアの平均絶対誤差が1.1%であり,それぞれ0.3%,最悪のエラーが1.9%である。
論文 参考訳(メタデータ) (2025-08-02T05:34:05Z) - A Sample Efficient Conditional Independence Test in the Presence of Discretization [54.047334792855345]
離散化されたデータに直接条件付き独立テスト(CI)は、誤った結論につながる可能性がある。
最近の進歩は、観測データをバイナライズすることで、潜伏変数間の適切なCI関係を推測することを目指している。
そこで本研究では,バイナライゼーションプロセスに依存しないサンプル効率のCIテストを提案する。
論文 参考訳(メタデータ) (2025-06-10T12:41:26Z) - Cer-Eval: Certifiable and Cost-Efficient Evaluation Framework for LLMs [29.764833226591012]
本稿では,大規模言語モデル(LLM)の検証と費用対効果評価フレームワークを提案する。
テストサンプル複雑性'を用いて、認定された評価に必要なテストポイント数を定量化し、テストサンプル複雑性の厳密な境界を導出します。
開発した理論に基づいて,LLM評価のコストを最小限に抑えるために,テストポイントを適応的に選択する分割型アルゴリズムCer-Evalを開発した。
論文 参考訳(メタデータ) (2025-05-02T17:05:01Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
我々はこの空間を探索するために$textitadaptive$アプローチを提案する。
我々は、マルチアームの包帯に頼り、次の(メソッド、バリデーションサンプル)ペアを順次識別して評価する。
典型的資源の5~15%のみを用いて,トップパフォーマンスの手法を同定できることを示す。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。