論文の概要: Calibration without labels in multiple testing
- arxiv url: http://arxiv.org/abs/2606.19737v1
- Date: Thu, 18 Jun 2026 03:06:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.626168
- Title: Calibration without labels in multiple testing
- Title(参考訳): 複数検定におけるラベルなし校正
- Authors: Adway S. Wadekar, Jake A. Soloff,
- Abstract要約: 大規模な仮説テストは、局所的な偽発見率を推定するための経験的ベイズ法のように、個々の仮説に関する確率的主張をサポートする。
このような主張を、モデル不特定性の下でも解釈可能な誤り確率をもたらす、ヌル仮説のおよそキャリブレーションされた予測として解釈する方法について検討する。
この課題に対処するために、順序付き$p$-値の間隔から派生した擬似ラベルの集合を構築し、局所的な偽発見率を回帰目標とする。
- 参考スコア(独自算出の注目度): 2.435006380732194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale hypothesis testing supports probability claims about individual hypotheses, as in empirical Bayes methods for estimating local false discovery rates. We study how such claims can be interpreted as approximately calibrated forecasts of the null hypothesis, yielding interpretable error probabilities even under model misspecification. Our approach draws conceptual inspiration from probabilistic forecasting but addresses a different challenge: unlike forecasting, where labels are eventually observed, in multiple testing the ground truth is never revealed, so calibration must be assessed stochastically and established indirectly. We address this challenge by constructing a set of pseudo-labels, derived from the spacings of ordered $p$-values, which have the local false discovery rate as their regression target. Our construction unlocks existing tools for assessing and performing post-hoc calibration in multiple testing. Notably, we find on a large-scale empirical survey of published psychology and neuroscience literature that the $q$-value, a popular error measure based on the false discovery rate, can be severely miscalibrated.
- Abstract(参考訳): 大規模な仮説テストは、局所的な偽発見率を推定するための経験的ベイズ法のように、個々の仮説に関する確率的主張をサポートする。
このような主張を、モデル不特定性の下でも解釈可能な誤り確率をもたらす、ヌル仮説のおよそキャリブレーションされた予測として解釈する方法について検討する。
我々のアプローチは確率的予測から概念的なインスピレーションを引き出すが、異なる課題に対処する: ラベルが最終的に観察される予測とは異なり、複数のテストにおいて基底真理は明らかにされないため、キャリブレーションは確率的に評価され、間接的に確立されなければならない。
この課題に対処するために、順序付き$p$-値の間隔から派生した擬似ラベルの集合を構築し、局所的な偽発見率を回帰目標とする。
われわれは,複数回のテストにおいて,ポストホックキャリブレーションの評価と実行を行う既存のツールをアンロックする。
特に、出版心理学と神経科学の文献を大規模に調査した結果、偽発見率に基づく一般的な誤り尺度である$q$-valueは、ひどく誤解される可能性があることが判明した。
関連論文リスト
- Spiking the training data to correct for test set contamination [28.940486760749025]
そこで本研究では,テスト例を意識的に既知の速度で汚染することにより,トレーニングデータをスパイクする手法を提案する。
スパイクされた例は、インフレーションされたテストスコアの統計的補正を可能にするモデル記憶の予測器の校正に使用することができる。
論文 参考訳(メタデータ) (2026-05-24T02:06:59Z) - Hypothesis Testing over Observable Regimes in Singular Models [0.12183405753834557]
特異統計モデルにおけるテストの基本的な障害は特異性そのものではなく、同定不可能なパラメータ量に関する仮説の定式化であることを示す。
この重複障害を形式化し、不特定パラメータ関数に依存する仮説が必ずしもこの意味で失敗することを示す。
対照的に、帰納的分布によって決定される特定可能な可観測量の上に定式化された仮説は、古典的なテスト理論に完全に従う。
論文 参考訳(メタデータ) (2026-02-27T16:44:29Z) - Predicting fixed-sample test decisions enables anytime-valid inference [0.3222802562733787]
我々は,任意の固定サンプル仮説テストから任意の有意なテストに変換する簡単な手順を導入する。
我々は、null仮説が偽である場合に、かなりのサンプル貯蓄でType-Iエラー制御と準最適パワーを確保する。
臨床試験などの分野では、早期に安全に停止することで、患者が最高の治療を受けられるようにし、効果的な治療法の開発を加速することができる。
論文 参考訳(メタデータ) (2026-02-14T20:17:51Z) - Pre-validation Revisited [79.92204034170092]
シミュレーションと応用による予測,推測,誤差推定における事前検証の特性と利点を示す。
そこで本研究では, あるモデル下での事前検証予測のためのテスト統計量の解析的分布だけでなく, 推論を行うための一般的なブートストラップ手順も提案する。
論文 参考訳(メタデータ) (2025-05-21T00:20:14Z) - Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。
本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:44:14Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Calibration tests beyond classification [30.616624345970973]
ほとんどの教師付き機械学習タスクは、既約予測エラーを被る。
確率論的予測モデルは、妥当な目標に対する信念を表す確率分布を提供することによって、この制限に対処する。
校正されたモデルは、予測が過信でも過信でもないことを保証します。
論文 参考訳(メタデータ) (2022-10-21T09:49:57Z) - T-Cal: An optimal test for the calibration of predictive models [49.11538724574202]
有限検証データセットを用いた予測モデルの誤校正を仮説検証問題として検討する。
誤校正の検出は、クラスの条件付き確率が予測の十分滑らかな関数である場合にのみ可能である。
我々は、$ell$-Expected Error(ECE)のデバイアスドプラグイン推定器に基づくキャリブレーションのためのミニマックステストであるT-Calを提案する。
論文 参考訳(メタデータ) (2022-03-03T16:58:54Z) - Tracking disease outbreaks from sparse data with Bayesian inference [55.82986443159948]
新型コロナウイルス(COVID-19)のパンデミックは、感染発生時の感染率を推定する新たな動機を与える。
標準的な手法は、より細かいスケールで共通する部分的な観測可能性とスパースなデータに対応するのに苦労する。
原理的に部分観測可能なベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-12T20:37:33Z) - Individual Calibration with Randomized Forecasting [116.2086707626651]
予測値がランダムに設定された場合,各サンプルのキャリブレーションは回帰設定で可能であることを示す。
我々は、個別の校正を強制する訓練目標を設計し、それをランダム化された回帰関数の訓練に使用する。
論文 参考訳(メタデータ) (2020-06-18T05:53:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。