論文の概要: Displacement Is Not Direction: Evaluating Fidelity Metrics for Quantized LLM Deployment
- arxiv url: http://arxiv.org/abs/2606.19558v1
- Date: Wed, 17 Jun 2026 19:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.516028
- Title: Displacement Is Not Direction: Evaluating Fidelity Metrics for Quantized LLM Deployment
- Title(参考訳): 変位は方向ではない:量子化LDM展開のための忠実度測定値の評価
- Authors: Miloš Nikolić, Ali Hadi Zadeh, Enrique Torres Sanchez, Andreas Moshovos,
- Abstract要約: 高精度参照に対するKL偏差(KLD)のような忠実度指標は、ベンチマーク品質の低コストプロキシとして実際に使用されることが多い。
KLDは全コホートに対するベンチマークスコアと強く相関していることがわかった。
しかし、この関係は、ほぼベースラインのサイレントゾーンにおいて非重要な状態に崩壊する。
- 参考スコア(独自算出の注目度): 0.7249731529275342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fidelity metrics, such as per-token KL divergence (KLD) against a high-precision reference, are often used in practice as low-cost proxies for benchmark quality. We test this practice on a 28-quant cohort of Qwen3.6-35B-A3B and a 41-quant cohort of Devstral-Small-2-24B, evaluated across a suite of downstream benchmarks. We find that KLD is strongly correlated with benchmark score over the full cohort ($ρ=-0.72$ on Qwen and $ρ=-0.86$ on Devstral, both with $p<0.001$). However, this relationship collapses to non-significance in the near-baseline silent zone ($ρ=+0.00$ on Qwen and $ρ=-0.24$, $p=0.36$, on Devstral). This collapse persists across 14 measurement variants, including different KLD aggregations, perplexity formulations, top-1 agreement, calibration corpora, and context lengths. At the per-prompt level, KLD has only weak failure-prediction power on code, with failed-vs-passed geometric-mean ratios in $[1.08,1.22]$ across five models on LiveCodeBench, and fails as a cross-model router, achieving only $42.3\%-49.4\%$ accuracy on disagreement prompts. We trace the collapse to a structural decomposition: KLD primarily measures the volume of disagreement with the reference, with silent-zone composite $ρ=+0.94$ ($p<0.001$) on Qwen and $+0.55$ ($p=0.03$) on Devstral, while its relationship to the direction of those disagreements is weak and task-conditional.
- Abstract(参考訳): 高精度参照に対するKL偏差(KLD)のような忠実度指標は、ベンチマーク品質の低コストプロキシとして実際に使用されることが多い。
この手法は、Qwen3.6-35B-A3Bの28量子コホートと、Devstral-Small-2-24Bの41量子コホートで検証し、一連の下流ベンチマークで評価した。
KLDはQwenではρ=-0.72$、Devstralではρ=-0.86$、ともに$p<0.001$とベンチマークスコアと強く相関している。
しかし、この関係は準ベースラインのサイレントゾーン(Qwen ではρ=+0.00$、Devstral では$ρ=-0.24$、$p=0.36$)で崩壊する。
この崩壊は、KLDアグリゲーション、パープレキシティの定式化、トップ-1合意、キャリブレーションコーパス、コンテキスト長を含む14の変種で持続する。
プロンプト単位のレベルでは、KLDはコード上のエラー予測力の弱さしか持たず、LiveCodeBench上の5つのモデルにまたがって、vsパスされた幾何平均比が[1.08,1.22]$で失敗し、クロスモデルルータとして失敗し、不一致プロンプトの精度はわずか42.3\%-49.4\%である。
KLD は主に、Qwen 上のサイレントゾーン合成 $ρ=+0.94$ (p<0.001$) と Devstral 上の $+0.55$ (p=0.03$) と、これらの不一致の方向との関係は弱く、タスク条件である。
関連論文リスト
- Which Defense Closes Which Threat? Attributing OWASP-LLM-Top-10 Coverage and Its Brittleness Under Paraphrasing [51.56484100374058]
プロダクションLLMアプリケーションは、いくつかの防衛ファミリを積み重ねる -- 拒絶フレーズフィルタ、トークンバッジコントロール、モデル許容度リスト、レート制限、ツール登録認証 -- が、BASベンチマークでは、単一の集計カバレッジ番号を報告している。
21エージェントベースラインスキャナに4つのLLM-Top-10対応エージェントを追加し、4つの合成LDMエンドポイントの格子をターゲットとした。
論文 参考訳(メタデータ) (2026-06-01T19:39:25Z) - UR-JEPA: Uniform Rectifiability as a Regularizer for Joint-Embedding Predictive Architectures [0.0]
局所次元の均一に$n$の補正可能な測度を小スケールで目標とするEmphUR-JEPAを提案する。
UR--JEPA($mathcalLtextCGLT$)は指数$sim 20$から$25$のグローバルな幾何スペクトルを生成し、LeJEPAのスペクトルはほぼ平坦である(最大ボトム比は3.6ドル)。
論文 参考訳(メタデータ) (2026-05-31T20:26:54Z) - Scaling Laws for Agent Harnesses via Effective Feedback Compute [53.68149869349268]
emphEffective Feedback Compute (EFC)は、情報的、有効、非冗長な場合にのみフィードバックを信用し、その後の決定のために保持するトレースレベルのスケーリング座標である。
EFCベースの座標は、生の計算ベースラインよりも失敗率を常に予測する。
論文 参考訳(メタデータ) (2026-05-28T09:45:47Z) - Representation Without Reward: A JEPA Audit for LLM Fine-Tuning [1.2691047660244335]
JEPA(Joint-embedding predictive Architectures)は、モデルが観測された出力よりも遅延表現を予測できるように訓練された時に、より有用な抽象化を学ぶべきであることを提案している。
自己回帰型言語モデルの微調整には、この原理はより厳密な要件を必要とする。
我々は、Llama-3.2-1B-Instruct LoRA を用いて、自然言語からレジェックス生成におけるその要件を検証した。
論文 参考訳(メタデータ) (2026-05-14T20:27:32Z) - Scale-Sensitive Shattering: Learnability and Evaluability at Optimal Scale [54.65053906803857]
実数値関数クラスが一様収束と学習可能性を示す最適尺度について検討する。
本研究の主な成果は,PAC学習の基本定理のスケール敏感な一般化である。
また、定量的サンプルの複雑さと評価可能性に関するオープンな質問をいくつか取り上げる。
論文 参考訳(メタデータ) (2026-05-13T15:41:30Z) - Tokens-per-Parameter Coverage Is Critical for Robust LLM Scaling Law Extrapolation [45.56738584872585]
ニューラルスケーリング法則は、パラメータカウント$N$とトークンカウント$D$のパワーロー関数として、言語モデルの損失を近似する。
本稿では,コリニア設計がガウス・ニュートン最小二乗問題に固有の不条件を生じさせることを示す。
これを4つのスケーリング法則形式に対して証明し、十分に条件付き推定に十分必要な閉形式TPP多様性閾値を導出する。
論文 参考訳(メタデータ) (2026-05-08T23:00:17Z) - A Closed-Form Persistence-Landmark Pipeline for Certified Point-Cloud and Graph Classification [0.0]
PLACE(Persistence-Landmark Analytic Classification Engine)は、点雲とグラフを分類するためのクローズドフォームパイプラインである。
3つの量的保証 -- マージンベースの過剰リスク率、クローズドフォーム記述子選択ルール、プレディションごとの証明書 -- は、トレーニングラベルのみから導かれる。
論文 参考訳(メタデータ) (2026-05-04T17:15:01Z) - Blind Catalytic Quantum Error Correction: Target-State Estimation and Fidelity Recovery Without \textit{A Priori} Knowledge [0.0]
触媒回収前にノイズ出力のみから目標を推定するEmphblind CQECを導入する。
5つの評価方法が3つのノイズモデルに対してベンチマークされる。
論文 参考訳(メタデータ) (2026-04-13T08:27:08Z) - Spectral Sentinel: Scalable Byzantine-Robust Decentralized Federated Learning via Sketched Random Matrix Theory on Blockchain [0.0]
ビザンチンのクライアントは、不均一な(Non-IID)データの下での濃度勾配を中毒する。
本稿では,ビザンチン検出・集約フレームワークであるSpectral Sentinelを提案する。
Polygonネットワーク上でブロックチェーンを統合することで,完全なシステムを実現しています。
論文 参考訳(メタデータ) (2025-12-14T09:43:03Z) - Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。