論文の概要: Calibrated Sampling-Free Uncertainty Estimation in Bayesian Deep Learning
- arxiv url: http://arxiv.org/abs/2606.16214v2
- Date: Wed, 17 Jun 2026 07:26:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 13:57:35.19882
- Title: Calibrated Sampling-Free Uncertainty Estimation in Bayesian Deep Learning
- Title(参考訳): ベイズ深層学習における校正サンプリングフリー不確かさ推定
- Authors: Tobias Jan Wieczorek, Leon de Andrade, Thomas Möllenhoff, Marcus Rohrbach,
- Abstract要約: 光キャリブレーション工程を通じて残差を吸収する正規化層の新しい伝搬法を提案する。
CVPは、変圧器とCNNをまたいだMCサンプリングの正確な不確実性推定を、コストのごく一部で比較可能な精度で得る。
Visual Reasoning (NLVR2) では BEiT-3 が 8.2% から 14.6% に、VQAv2 では ViLT が 2.6% から 10.8% に改善されている。
- 参考スコア(独自算出の注目度): 12.703044734698814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern deep learning models remain notoriously prone to overconfidence, limiting their reliability in high-stakes applications. Bayesian methods aim to counter this by learning a distribution over model parameters, and recent advances now make this feasible for large-scale architectures at costs comparable to AdamW. However, a challenge remains at test time: predictions must be averaged across many forward passes with weights sampled from the posterior, which is prohibitively expensive. Variance propagation offers an efficient alternative, computing layer-wise analytical approximations of uncertainty in a single forward pass. While such techniques are effective for MLPs, their extension to modern architectures remains challenging, due to increased depth and diversity of layer types. To fill this gap, we propose Calibrated Variance Propagation (CVP), which introduces a new propagation method for normalization layers, combines it with recent techniques for handling activation functions, and absorbs residual error through a light calibration step. CVP yields comparably accurate uncertainty estimates to MC sampling across transformers and CNNs, at a fraction of the cost. Against prior variance propagation work, CVP improves coverage at $0.5\%$ risk from $8.2\%$ to $14.6\%$ with BEiT-3 on Visual Reasoning (NLVR2) and from $2.6\%$ to $10.8\%$ with ViLT on VQAv2, with gains extending to convolutional architectures.
- Abstract(参考訳): 現代のディープラーニングモデルは、高レベルのアプリケーションにおける信頼性を制限し、過度に自信を持てることで悪名高い。
ベイズ的手法はモデルパラメータの分布を学習することでこの問題に対処することを目的としており、近年の進歩によりAdamWに匹敵するコストで大規模アーキテクチャでこれを実現することができるようになっている。
予測は後部から採取した重量で多くの前方通過路で平均化されなければならないが、これは違法に高価である。
分散伝搬は、1つの前方通過における不確かさを階層的に解析的に近似する効率的な代替手段を提供する。
このような手法はMLPに有効であるが、層型の深さと多様性の増大により、現代のアーキテクチャへの拡張は依然として困難である。
このギャップを埋めるために、正規化層のための新しい伝搬法を導入し、アクティベーション関数を扱う最近の技術と組み合わせ、光キャリブレーションステップを通じて残差を吸収するキャリブレーション可変伝搬(CVP)を提案する。
CVPは、変圧器とCNNをまたいだMCサンプリングの正確な不確実性推定を、コストのごく一部で比較可能な精度で得る。
従来の分散伝搬処理とは対照的に、CVP は 0.5 % のリスクを 8.2 % から $114.6 % に改善し、Visual Reasoning (NLVR2) では BEiT-3 を、VQAv2 では $2.6 % から $10.8 % に改善した。
関連論文リスト
- Sharp Convergence Rates for Masked Diffusion Models [53.117058231393834]
制約を克服するオイラー法に対する全変分に基づく解析法を開発した。
その結果、スコア推定の仮定を緩和し、パラメータ依存性を改善し、収束保証を確立する。
全体としては,CTMC軌道に沿った直接テレビによる誤り分解と,FHSのためのデカップリングに基づく経路解析を導入している。
論文 参考訳(メタデータ) (2026-02-26T00:47:51Z) - Lipschitz Multiscale Deep Equilibrium Models: A Theoretically Guaranteed and Accelerated Approach [10.914558012458423]
ディープ均衡モデル(DEQ)は、ニューラルネットワークにおける層変換の固定点を探索することによって、層を積み重ねることなく無限に深いネットワーク表現を実現する。
DEQは、従来の方法よりも、トレーニングと推論にはるかに多くの計算時間を必要とするという課題に直面している。
本研究では,固定点収束を改良し,計算時間を短縮する手法について検討した。
論文 参考訳(メタデータ) (2026-02-03T09:22:56Z) - Richer Bayesian Last Layers with Subsampled NTK Features [25.566044416945875]
Bayesian Last Layers (BLL) は、ニューラルネットワークにおける不確実性を推定する便利な、計算的に効率的な方法を提供する。
本稿では,最後の層に分散した空間上のニューラル・タンジェント・カーネル(NTK)特徴の投影を利用して,BLLを改善する手法を提案する。
これにより、標準的なBLLの推論の計算コストを低く保ちながら、完全なネットワークの可変性を考慮に入れた後部推論が可能となる。
論文 参考訳(メタデータ) (2026-02-01T15:24:20Z) - How to Set the Learning Rate for Large-Scale Pre-training? [73.03133634525635]
我々はこの調査を2つの異なる研究パラダイムであるフィッティングとトランスファーに定式化する。
フィッティングパラダイムでは,探索係数のスケーリング法則を導入し,O(n3) から O(n*C_D*C_) への探索複雑性を予測モデルにより効果的に低減する。
我々は、$Transferの原則をMixture of Experts (MoE)アーキテクチャに拡張し、モデル深さ、重量減衰、トークン水平線を含む適用範囲を広げる。
論文 参考訳(メタデータ) (2026-01-08T15:55:13Z) - Hyperparameter Transfer Enables Consistent Gains of Matrix-Preconditioned Optimizers Across Scales [55.91454326946738]
学習速度と減量率の最適化は,幅広い言語に対して,モデルの幅と深さでどのようにスケールするかを検討する。
我々は、$Pによる学習率のスケーリングは転送を改善するが、それでもかなりの有限幅偏差に悩まされる可能性があることを見出した。
計算-最適スケーリングでは、独立したウェイト崩壊が1/mathrmwidth$で言語間でほぼ最適であることが分かる。
論文 参考訳(メタデータ) (2025-12-05T11:03:41Z) - Dynamic Pricing in the Linear Valuation Model using Shape Constraints [21.319339643047826]
線形評価モデルにおける検閲データに対する動的価格設定に対する形状制約付きアプローチを提案する。
本手法は, 文献における既往の方法と比較して, 経験的後悔の度合いを低くする。
論文 参考訳(メタデータ) (2025-02-09T04:58:33Z) - Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [69.1820058966619]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。