論文の概要: Cutting LLM Evaluation Costs with SySRs: A Bandit Algorithm that Provably Exploits Model Similarity
- arxiv url: http://arxiv.org/abs/2606.07726v1
- Date: Fri, 05 Jun 2026 17:03:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.369792
- Title: Cutting LLM Evaluation Costs with SySRs: A Bandit Algorithm that Provably Exploits Model Similarity
- Title(参考訳): SySRによるLCM評価コストの削減:モデル類似性を爆発させるバンドアルゴリズム
- Authors: Zifan Lyu, Chahine Nejma, Tobias Wegel, Fanny Yang, Florian E. Dorner,
- Abstract要約: 大規模言語モデルは通常、テストクエリ毎にすべてのモデルを評価することでベンチマークされる。
本稿では,従来の逐次リジェクトアルゴリズムをペア比較で拡張したSySR(Sychronized Successive Rejects)を提案する。
- 参考スコア(独自算出の注目度): 14.830460628644715
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models are typically benchmarked by evaluating every model on every test query. For practitioners seeking the best model to deploy, this is often wasteful: if a model clearly performs worse than others, there is no need to precisely estimate its performance. Best-arm identification algorithms can be naturally applied to drastically reduce costs by adaptively allocating evaluation budget. Further, language models often respond similarly to the same prompt-a property previous work has tried to leverage with mixed success. We propose Synchronized Successive Rejects (SySRs), augmenting the classical Successive Rejects algorithm with paired comparisons. Unlike prior attempts to leverage model similarity in best-model identification, our approach is hyperparameter-free and enjoys performance guarantees that improve with the degree of similarity between evaluated models. Empirically, our method outperforms all baselines in terms of average error rate across 15 standard benchmarks, and in terms of worst-case budget for reliably identifying the best model.
- Abstract(参考訳): 大規模言語モデルは通常、テストクエリ毎にすべてのモデルを評価することでベンチマークされる。
もしモデルが他のモデルよりも明らかに悪いパフォーマンスをしているなら、そのパフォーマンスを正確に見積もる必要はありません。
ベストアーム識別アルゴリズムは、評価予算を適応的に割り当てることで、コストを大幅に削減するために自然に適用することができる。
さらに、言語モデルは、しばしば同じプロンプトと同じような反応をする。
本稿では,従来の逐次リジェクトアルゴリズムをペア比較で拡張したSySR(Sychronized Successive Rejects)を提案する。
最良モデル同定におけるモデル類似性を活用しようとする従来の試みとは異なり、我々のアプローチはハイパーパラメータフリーであり、評価モデル間の類似度を向上する性能保証を享受する。
提案手法は,15の標準ベンチマークにおける平均誤差率,最良モデルを確実に同定するための最悪の予算において,すべてのベースラインを上回ります。
関連論文リスト
- Provable Joint Decontamination for Benchmarking Multiple Large Language Models [19.929035827959822]
ベンチマーク除染を共同選択問題として定式化し,JECS(Joint Envelope Conformal Selection)を提案する。
JECS はモデルごとの同値 p を計算し、それを最大値で集約し、最大 p 個の null 分布の保守的エンベロープを再構成する。
様々なモデルとベンチマーク実験により、JECSは目標のGCR制御を一貫して維持しつつ、最大pベースラインよりも高い出力を達成することが示された。
論文 参考訳(メタデータ) (2026-05-20T09:16:39Z) - Valid Best-Model Identification for LLM Evaluation via Low-Rank Factorization [17.34147279018477]
統計的妥当性を損なうことなく,MABと安価な予測スコアを組み合わせた原理的枠組みを提案する。
分散を低減するために低ランク予測を用いた各モデルの性能の2倍頑健な推定器を導出する。
実世界のベンチマークによる実証的な結果から,本手法は必要な評価回数を削減し,計算とコストに有意義な節約をもたらすことが示された。
論文 参考訳(メタデータ) (2026-05-11T11:43:28Z) - A Consistency-Centric Approach to Set-Based Optimization with Multiple Models of Unranked Fidelity [0.3447372337541619]
現実世界のアプリケーションでは、モデル精度は先入観としてほとんど知られておらず、単一の最も正確なモデルが誤解を招く可能性があると仮定する。
本稿では,S-BOMM(Set-Based Optimization with Multiple Models)と呼ばれる,フレキシブルなセットベース最適化手法を提案する。
単一のベストソリューションに頼るのではなく、モデル間の一貫性を重視することで、このセットベースのアプローチは最適化問題に対する実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2026-02-28T20:30:41Z) - Scales++: Compute Efficient Evaluation Subset Selection with Cognitive Scales Embeddings [23.9553588103042]
本稿では,タスク項目自体の本質的な特性に基づいて選択を行うことを論じ,サブセット選択をベンチマークする項目中心のアプローチを提案する。
Scales++は、競争力のある予測忠実性を達成しながら、事前選択コストを18倍以上削減します。
この項目中心のアプローチは,忠実度を著しく低下させることなく,より効率的なモデル評価を可能にすることを実証する。
論文 参考訳(メタデータ) (2025-10-30T11:28:58Z) - Self-Improving LLM Agents at Test-Time [49.9396634315896]
言語モデル(LM)の1つのパラダイムは、大規模なトレーニングデータセットの作成に依存している。
実際には、大量のデータを集めることは非効率であり、それらのトレーニングは違法に高価である。
テスト時間自己改善(TT-SI)とテスト時間蒸留(TT-D)の2つのバリエーションについて検討する。
論文 参考訳(メタデータ) (2025-10-09T06:37:35Z) - Causal LLM Routing: End-to-End Regret Minimization from Observational Data [3.3580884064577616]
LLMルーティングは、クエリ毎に最も適切なモデルを選択することを目的としている。
従来のアプローチでは、メトリクスを最初に予測し、モデルがこれらの見積に基づいて選択される、分離された戦略が一般的だった。
観測データから意思決定の後悔を最小化してルーティングポリシーを学習する因果的エンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T21:34:18Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。
本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。
本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。
DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文 参考訳(メタデータ) (2025-01-02T17:01:06Z) - Language Model Preference Evaluation with Multiple Weak Evaluators [89.90733463933431]
PGEDは,複数のモデルに基づく評価器を用いて嗜好グラフを構築し,非循環的非競合性評価結果に対してこれらのグラフをアンサンブルし,デノテーズする手法である。
1)評価のためのモデルランキング、2)テスト時間スケーリングのための応答選択、3)モデル微調整のためのデータ選択である。
論文 参考訳(メタデータ) (2024-10-14T01:57:25Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。