論文の概要: Bounded Difference Concentration for Infinitely Exchangeable Sequences with Applications to AI Benchmark Uncertainty
- arxiv url: http://arxiv.org/abs/2606.17426v1
- Date: Tue, 16 Jun 2026 02:19:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.21707
- Title: Bounded Difference Concentration for Infinitely Exchangeable Sequences with Applications to AI Benchmark Uncertainty
- Title(参考訳): 無限交換可能な系列に対する境界差分濃度とAIベンチマーク不確実性への応用
- Authors: Fangyuan Lin, Spencer Frei, Victor H. de la Pena,
- Abstract要約: 無限交換可能な確率変数の関数の濃度特性を考察する。
サブサンプル平均と全集団平均との差のようなゼロサム線形コントラストでは、潜時混合項は正確にキャンセルされる。
このキャンセルは、最近の有限交換可能な濃度結果の無限伸縮限界に対して直接デ・フィネッティ機構を提供する、厳密で混合のないホーフディング型境界を与える。
- 参考スコア(独自算出の注目度): 9.998078491879145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the concentration properties of functions of infinitely exchangeable random variables. By conditioning on the de Finetti directing measure, we show that the deviation of any function with bounded-difference constants $c_1, \dots, c_n$ decomposes into a conditional sampling fluctuation and a latent mixture fluctuation. When this latent mixture is $σ_{\mathrm{mix}}^2$-subgaussian, we establish a concentration inequality with an effective variance proxy of $\frac{1}{4}\sum_i c_i^2 + σ_{\mathrm{mix}}^2$. Crucially, we demonstrate that for zero-sum linear contrasts, such as the difference between a subsample mean and a full population mean, the latent mixture term cancels exactly. This cancellation yields a tight, mixture-free Hoeffding-type bound that provides a direct de Finetti mechanism for the infinite-extendibility limit of recent finite-exchangeable concentration results. We apply this framework to quantify uncertainty in composite AI benchmarks, such as MMLU, where question items naturally exhibit exchangeable dependence across domains. Our results provide both a domain-stratified hierarchical model for bounding the uncertainty of accuracy scores, and a distribution-free, cost-saving statistical guarantee for accurately estimating full benchmark scores from random subsets.
- Abstract(参考訳): 無限交換可能な確率変数の関数の濃度特性を考察する。
デ・フィネッティ指示測度を条件づけることで、有界差定数 $c_1, \dots, c_n$ の任意の関数の偏差が条件付きサンプリング揺らぎと潜時混合ゆらぎに分解されることを示す。
この潜在混合物が$σ_{\mathrm{mix}}^2$-subgaussianであるとき、$\frac{1}{4}\sum_i c_i^2 + σ_{\mathrm{mix}}^2$の効果的な分散プロキシを持つ濃度不等式を確立する。
重要なことに、サブサンプル平均と全人口平均の差のようなゼロサム線形コントラストでは、潜時混合項は正確にキャンセルされる。
このキャンセルは、最近の有限交換可能な濃度結果の無限伸縮限界に対して直接デ・フィネッティ機構を提供する、厳密で混合のないホーフディング型境界を与える。
本稿では,MMLUなどの複合AIベンチマークにおける不確実性を定量化するために,本フレームワークを適用した。
本結果は,精度スコアの不確かさを限定する領域階層型階層モデルと,ランダムな部分集合からベンチマークスコアを正確に推定するための分布自由でコスト節約の統計的保証を提供する。
関連論文リスト
- Unified Unbiased Variance Estimation for MMD: Robust Finite-Sample Performance with Imbalanced Data and Exact Acceleration under Null and Alternative Hypotheses [0.0]
最大平均誤差(英: maximum mean discrepancy、MMD)は、2サンプルテストのためのカーネルベースの非パラメトリック統計量である。
我々は,そのU統計表現とHoeffding分解によるMDD統計量の分散について検討する。
論文 参考訳(メタデータ) (2026-01-20T11:41:32Z) - Divergence-Minimization for Latent-Structure Models: Monotone Operators, Contraction Guarantees, and Robust Inference [5.373905622325275]
我々は、潜時混合モデルにおける堅牢かつ効率的な推論のための分散化最小化(DM)フレームワークを開発する。
残留調整された発散を最適化することにより、DMアプローチはEMを特別なケースとして回収し、堅牢な代替品を生成する。
論文 参考訳(メタデータ) (2025-11-22T08:25:29Z) - Online Covariance Estimation in Nonsmooth Stochastic Approximation [14.818683408659764]
非滑らかな変分包含問題を解くために近似法(SA)を適用することを検討する。
我々の収束構造は、統計的推定法で最もよく知られているものを確立する。
論文 参考訳(メタデータ) (2025-02-07T20:16:51Z) - Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
一般のスコアミスマッチ拡散サンプリング器に対する明示的な次元依存性を持つ最初の性能保証を示す。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - A Skewness-Based Criterion for Addressing Heteroscedastic Noise in Causal Discovery [47.36895591886043]
非定常対称雑音モデル(HSNMs)について検討する。
データ分布のスコア(すなわちログ密度の勾配)の歪度に基づいて、HSNMを識別するための新しい基準を導入する。
外部ノイズの抽出を必要とせずにヘテロ代用ノイズを処理するアルゴリズムであるSkewScoreを提案する。
論文 参考訳(メタデータ) (2024-10-08T22:28:30Z) - TIC-TAC: A Framework for Improved Covariance Estimation in Deep Heteroscedastic Regression [109.69084997173196]
奥行き回帰は、予測分布の平均と共分散を負の対数類似度を用いて共同最適化する。
近年の研究では, 共分散推定に伴う課題により, 準最適収束が生じる可能性が示唆されている。
1)予測共分散は予測平均のランダム性を真に捉えているか?
その結果, TICは共分散を正確に学習するだけでなく, 負の対数類似性の収束性の向上も促進することがわかった。
論文 参考訳(メタデータ) (2023-10-29T09:54:03Z) - Sparsified Simultaneous Confidence Intervals for High-Dimensional Linear Models [4.675899216825188]
本稿では,間隔化同時信頼区間という,同時信頼区間の概念を提案する。
我々の区間は、区間の上と下の境界の一部が 0 に切り替わるという意味でスパースである。
提案手法は様々な選択手順と組み合わせることができるため,不確実性を比較するのに最適である。
論文 参考訳(メタデータ) (2023-07-14T18:37:57Z) - Near-Optimal Non-Parametric Sequential Tests and Confidence Sequences
with Possibly Dependent Observations [44.71254888821376]
我々は、一般的な非データ生成プロセスの下で、最初のタイプIエラーと予測リジェクション時間保証を提供する。
本研究では, 平均処理効果など, 方程式を推定することによって定義されるパラメータの推測に, 結果を適用する方法を示す。
論文 参考訳(メタデータ) (2022-12-29T18:37:08Z) - A Unified Joint Maximum Mean Discrepancy for Domain Adaptation [73.44809425486767]
本論文は,最適化が容易なjmmdの統一形式を理論的に導出する。
統合JMMDから、JMMDは分類に有利な特徴ラベル依存を低下させることを示す。
本稿では,その依存を促進する新たなmmd行列を提案し,ラベル分布シフトにロバストな新しいラベルカーネルを考案する。
論文 参考訳(メタデータ) (2021-01-25T09:46:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。