論文の概要: MINCE: Shrinking LLM Evaluation Datasets via Few-Model Monte Carlo Calibration
- arxiv url: http://arxiv.org/abs/2606.22826v1
- Date: Mon, 22 Jun 2026 04:08:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 04:21:56.709575
- Title: MINCE: Shrinking LLM Evaluation Datasets via Few-Model Monte Carlo Calibration
- Title(参考訳): MINCE: モデルモンテカルロ校正によるLCM評価データセットの縮小
- Authors: Devleena Das, Rajeev Patwari, Vikram Kumar Bukka, Nithin Kumar Guggilla, Elliott Delaye, Ashish Sirasao,
- Abstract要約: 既存のサブセット選択法は、このコストを削減するが、大きなキャリブレーションプールや学習した予測層に依存している。
最小限のサブセットサイズを求めるために,小さなキャリブレーションモデルを用いたモンテカルロ法を用いて,モンテカルロシミュレーションを行う MINCE を提案する。
MINCEはIFEVALを54%減らし、MMLUを89%減らし、GSM8Kを70%減らした。
- 参考スコア(独自算出の注目度): 2.688266579180253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating LLMs across many model variants -- quantized, fine-tuned, or deployment-specific -- requires running large benchmarks repeatedly, a process that can take tens of hours per model on edge hardware such as NPUs. Existing subset selection methods reduce this cost but depend on large calibration pools or learned prediction layers. We introduce MINCE (Monte Carlo Informed N-sizing for Compact Evaluation), which uses Monte Carlo simulation over per-item logs from a small set of calibration models to find the minimum subset size that bounds accuracy drift and then fixes a randomly sampled subset at that size, with no prediction layer needed. MINCE reduces IFEVAL by 54\%, MMLU by 89\%, and GSM8K by 70\% with maximum drift $\leq$2.62\,pp on BF16 models and mean drift of 0.77--3.59\,pp on held-out NPU models, while delivering median GPU evaluation speedups of 2.7--8.1$\times$ and NPU evaluation speedups of 1.7--2.0$\times$. The method is robust to calibration pool size and achieves lower drift than tinyBenchmarks (12$\times$ lower on MMLU, 3.3$\times$ on GSM8K) while using 57$\times$ fewer calibration models.
- Abstract(参考訳): 多くのモデル亜種(量子化、微調整、デプロイメント固有の)にわたるLCMを評価するには、大規模なベンチマークを繰り返し実行する必要がある。
既存のサブセット選択法は、このコストを削減するが、大きなキャリブレーションプールや学習した予測層に依存している。
我々は,モンテカルロシミュレーションを用いて,小さなキャリブレーションモデルを用いて,精度のドリフトを束縛する最小サブセットサイズを求めるとともに,そのサイズでランダムにサンプリングされたサブセットを修正し,予測層を必要としない。
MINCE は IFEVAL を 54\%、MMLU を 89\%、GSM8K を 70\%、最大ドリフト$\leq$2.62\,pp を BF16 モデル、ホールドアウト NPU モデルの平均ドリフト 0.77--3.59\,pp を減らし、GPU 評価速度は 2.7--8.1$\times$ と NPU の評価速度は 1.7-2.0$\times$ である。
この方法はキャリブレーションプールサイズに頑丈で、小さなベンチマーク(MMLUでは12$\times$、GSM8Kでは3.3$\times$)よりも低いドリフトを実現し、57$\times$より少ないキャリブレーションモデルを使用する。
関連論文リスト
- An Empirical Study of OpenPangu Quantization on Ascend NPUs [43.29474342134475]
OpenPanguモデルは、プライベートおよび国内における大規模言語モデルのデプロイにとって魅力的なターゲットである。
本稿では,Huawei Ascend 910B1 NPUにおけるOpenPangu 1Bおよび7Bモデルの制御実験を行った。
論文 参考訳(メタデータ) (2026-06-19T09:33:11Z) - Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning [51.88950852117154]
Chunk-Level Guided Generationは、既製の大規模言語モデルをプロセススコアラとして使用する、トレーニング不要の代替手段である。
本研究では,系統的な長さバイアスのため,大モデル確率の可変長推論ステップが信頼できないことを示す。
Chunk-Level Guided Generation は PRM guided search よりもかなり短い推論トレースを生成する。
論文 参考訳(メタデータ) (2026-06-01T04:43:36Z) - CarBoN: Calibrated Best-of-N Sampling Improves Test-time Reasoning [62.56541355300587]
本稿では,高逆推論経路に向けてモデルを適応的に修正する一般的なテスト時間校正フレームワークを提案する。
本フレームワークでは,まず解空間を探索し,次にロジットの校正を学習する二相法であるCarBoNを提案する。
MATH-500とAIME-2024の実験では、CarBoNは効率を向上し、同じ精度に達するために最大4倍のロールアウトが可能である。
論文 参考訳(メタデータ) (2025-10-17T14:04:37Z) - QuZO: Quantized Zeroth-Order Fine-Tuning for Large Language Models [27.730213115659986]
言語モデル(LLM)はしばしば、推論におけるメモリコストとレイテンシを低減するために、精度を下げるために量子化される。
従来の微調整手法ではバックプロパゲーションが必要であり、低精度設定ではエラーが発生しやすい。
本稿では,低精度フォワードパスを用いた微調整LDMのための量子ゼロオーダー(Quantized Zeroth-Order)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T22:20:31Z) - VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models [11.708250566573334]
大規模言語モデル(LLM)の極低ビット量子化のためのベクトル後学習量子化(VPTQ)を導入する。
VPTQはLLaMA-2で0.01$-$0.34$、Mistral-7Bで0.38$-$0.68$、LLaMA-3で4.41$-$7.34$を2ビットで還元する。
また、モデル精度を高め、モデルをさらに圧縮する残差量子化および外れ値量子化をサポートするためにVPTQを拡張した。
論文 参考訳(メタデータ) (2024-09-25T16:25:45Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models [23.890454137522774]
主特異値と特異ベクトル適応(PiSSA)を導入する。
PiSSAはLoRAと同じアーキテクチャを共有しているが、アダプタ行列を$A$と$B$で初期化し、元の行列の主成分を$W$とし、残りのコンポーネントをmathbbRm times n$の残留行列に配置する。
LoRAと比較すると、PiSSAは主コンポーネントを更新し、"残留"部分を凍結することで、より高速な収束と性能の向上を実現している。
論文 参考訳(メタデータ) (2024-04-03T15:06:43Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。