論文の概要: Tail-Shape Estimation in LLM Evaluation Is Fragile: A Protocol for Diagnosing False Positives
- arxiv url: http://arxiv.org/abs/2606.16511v1
- Date: Mon, 15 Jun 2026 10:13:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.440524
- Title: Tail-Shape Estimation in LLM Evaluation Is Fragile: A Protocol for Diagnosing False Positives
- Title(参考訳): LLM評価におけるTail-Shape推定は誤りである:偽陽性の診断のためのプロトコル
- Authors: Luca Zhou,
- Abstract要約: 尾の質量がどれほど大きいかから、尾の重みを分離する正準極値理論的テールインデックスパラメータが、平均を超える識別情報を付加するかどうかを問う。
我々は,任意の正の尾形クレームに対する許容性,適合性,しきい値安定性,エフェクトサイズ要件を規定するプロトコルを事前登録する。
その結果, LLM毒性評価装置のテール形状推定は最近の文献より脆弱であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work motivates moving large language model (LLM) evaluation from mean-based to tail-aware metrics, including conditional value-at-risk and tail-index estimates of reward-model error. We ask whether the canonical extreme-value-theory tail-index parameter, which isolates how heavy a tail is from how large the tail mass is, adds discriminative information beyond the mean and a standard tail-magnitude statistic in LLM evaluation. We pre-register a protocol covering admissibility, goodness-of-fit, threshold-stability, and effect-size requirements for any positive tail-shape claim. The protocol is the contribution of this paper; the empirical study below is a demonstration of what its gates catch. Applied to a standard LLM toxicity-evaluation setup under two structurally different scorer families, the protocol catches three distinct modes of false positives that a naive analysis would have published, and rejects the headline tail-shape claim on both scorers. We conclude that tail-shape estimation in the LLM toxicity-evaluation setups we examined is more fragile than the recent literature suggests, and recommend the protocol as a starting point for tail-index claims in similar setups.
- Abstract(参考訳): 最近の研究は、平均ベースからテールアウェアメトリクスへの大きな言語モデル(LLM)評価の移動を動機付けている。
LLM評価において, 標準極値理論のテール・インデックスパラメータは, テールの質量がどれほど重いかから分離し, 平均を超える識別情報を付加し, 標準のテール・マグニチュード統計値を付加するか否かを問う。
我々は,任意の正の尾形クレームに対する許容性,適合性,しきい値安定性,エフェクトサイズ要件を規定するプロトコルを事前登録する。
このプロトコルは、この論文の貢献であり、下記の実証研究は、そのゲートが何をキャッチするかの実証である。
このプロトコルは、2つの異なるスコアーファミリの標準的なLSM毒性評価設定に適用され、単純分析が公表したであろう偽陽性の3つの異なるモードをキャッチし、両方のスコアーの見出し尾形主張を拒否する。
LLM毒性評価装置のテール形状推定は最近の文献が示唆しているよりも脆弱であり, 同様の手法によるテール形状評価の出発点としてプロトコルを推奨する。
関連論文リスト
- Stop Suppressing the Tail: Causal Inference for Extreme Events [0.0]
Average DoseResponse(ADRF)はコア因果推論のプリミティブである。
標準頑健な二重機械学習(DML)は、これらの極端を意図的に抑制し、平均を安定させる。
金融リターンや気候の損失などの高水準設定では、この1-in-1000の極端な事象が実際の目標量である。
本研究は,標準点推定とともに構造付きテール形状出力を出力するADRF推定器を提案する。
論文 参考訳(メタデータ) (2026-05-26T11:38:12Z) - A Theoretical Framework for Statistical Evaluability of Generative Models [57.9316356505791]
本稿では、生成モデルを評価するための理論的枠組みを導入し、一般的なメトリクスに対する評価結果を確立する。
テストベースのメトリクス、例えば積分確率測定(IPM)とレニイ発散(Rényi divergences)の2つのカテゴリについて検討する。
任意の有界テストクラスに対するIPMは、乗法および加法近似誤差まで有限標本から評価できることを示す。
対照的に、レニイとKLの発散は、希少事象によってその値が批判的に決定されるため、有限標本から評価できない。
論文 参考訳(メタデータ) (2026-04-07T01:53:59Z) - Entropy Alone is Insufficient for Safe Selective Prediction in LLMs [20.664633053172327]
選択予測システムは、高リスクケースでの回答を控えることで、言語モデル幻覚による害を軽減することができる。
不確実性定量化技術はしばしばそのようなケースを特定するために用いられるが、より広い選択的予測ポリシーの文脈で評価されることはほとんどない。
エントロピーに基づく不確実性手法のモデル依存的故障モードを同定し、エントロピースコアと正当性プローブ信号を組み合わせることで、信頼できない禁忌行動に対処する。
論文 参考訳(メタデータ) (2026-03-22T11:27:13Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Correctness Coverage Evaluation for Medical Multiple-Choice Question Answering Based on the Enhanced Conformal Prediction Framework [2.9599960287815144]
大規模言語モデル(LLM)は、医療質問応答(QA)のシナリオでますます採用されている。
LLMは幻覚や非現実的な情報を生成でき、高い医療業務における信頼性を損なう。
本稿では,医療用マルチ選択質問応答タスクのための拡張型コンフォーマル予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-07T15:22:10Z) - Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration [32.15773300068426]
メンバーシップ推論攻撃は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。
自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
論文 参考訳(メタデータ) (2023-11-10T13:55:05Z) - Cross-Domain Empirical Risk Minimization for Unbiased Long-tailed
Classification [90.17537630880305]
従来の長い尾の分類法では見過ごされがちな不偏見に対処する。
バイアスのないモデルをトレーニングするためのクロスドメイン経験的リスク最小化(xERM)を提案する。
論文 参考訳(メタデータ) (2021-12-29T03:18:47Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。