論文の概要: SOAP-Bubbles: Structured Weight Uncertainty for Neural Networks
- arxiv url: http://arxiv.org/abs/2606.23357v1
- Date: Mon, 22 Jun 2026 13:56:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:24:48.999081
- Title: SOAP-Bubbles: Structured Weight Uncertainty for Neural Networks
- Title(参考訳): SOAP-Bubbles: ニューラルネットワークのための構造化された重みの不確実性
- Authors: Adrian Robert Minut, Nico Daheim, Marco Miani, Mohammad Emtiyaz Khan, Wu Lin, Thomas Möllenhoff,
- Abstract要約: 構造化された重みの不確かさは、ディープラーニングの多くの面を改善することができるが、見積もりと実装の難しさは依然として高くつく。
私たちのキーとなるアイデアは、既存の対角共変変分法であるIVONをSOAPのプリコンディショナーの固有空間で実行することです。
結果として得られるメソッドはSOAPと同じコストで、パイプラインのトレーニングに大幅な変更は必要ありません。
- 参考スコア(独自算出の注目度): 23.770076240391145
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Structured weight-uncertainty can improve many aspects of deep learning, but it remains costly to estimate and difficult to implement. Here, we show that these issues can be addressed by adapting the SOAP optimizer. Our key idea is to run IVON, an existing diagonal-covariance variational method, in the eigenspace of SOAP's preconditioner and then use the preconditioner to transform the diagonal estimate into a non-diagonal covariance. The resulting method has costs similar to those of SOAP and requires no drastic changes to training pipelines. We call the posteriors obtained in this way SOAP-Bubbles and our new optimizer Eigenspace-VON (EVON). We show that, for logistic regression, EVON recovers the exact Gaussian covariance and that, for language model pretraining, it yields significantly better results than existing diagonal-covariance methods. Our work makes it easier to estimate more expressive posterior distributions for deep learning at scale.
- Abstract(参考訳): 構造的ウェイト不確実性は、ディープラーニングの多くの側面を改善することができるが、見積もりと実装の困難さは、依然としてコストがかかる。
ここでは、SOAPオプティマイザを適用することで、これらの問題に対処できることを示します。
我々のキーとなる考え方は、既存の対角共変変分法であるIVONをSOAPのプレコンディショナーの固有空間で実行し、次にプレコンディショナーを使用して対角推定を非対角共変に変換することである。
結果として得られるメソッドはSOAPと同じコストで、パイプラインのトレーニングに大幅な変更は必要ありません。
私たちは、SOAP-Bubblesと新しいオプティマイザであるEigenspace-VON(EVON)で得られた後部をこの方法で呼びます。
本稿では,ロジスティック回帰において,EVONがガウスの正確な共分散を復元し,言語モデルの事前学習において,既存の対角-共分散法よりもはるかに優れた結果が得られることを示す。
我々の研究は、大規模に深層学習を行うために、より表現力のある後部分布を推定するのを容易にする。
関連論文リスト
- Improving Reasoning for Diffusion Language Models via Group Diffusion Policy Optimization [25.504794432255306]
拡散言語モデル(DLMs)は、反復的洗練を伴う並列で順序に依存しない生成を可能にする。
強化学習の微調整をDLMに適用することは、難易度が高いため、未解決の課題である。
DLMに適した新しいRLアルゴリズムである textbfGroup Diffusion Policy Optimization (GDPO) を導入する。
論文 参考訳(メタデータ) (2025-10-09T17:58:07Z) - Rao-Blackwell Gradient Estimators for Equivariant Denoising Diffusion [55.95767828747407]
分子やタンパク質の生成のようなドメインでは、物理系はモデルにとって重要な固有の対称性を示す。
学習のばらつきを低減し、確率的に低い分散勾配推定器を提供するフレームワークを提案する。
また,軌道拡散法(Orbit Diffusion)と呼ばれる手法を用いて,損失とサンプリングの手順を取り入れた推定器の実用的実装を提案する。
論文 参考訳(メタデータ) (2025-02-14T03:26:57Z) - A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。
既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。
DPSに対する新しいベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-06T09:04:13Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Kalman Bayesian Neural Networks for Closed-form Online Learning [5.220940151628734]
閉形式ベイズ推論によるBNN学習のための新しい手法を提案する。
出力の予測分布の計算と重み分布の更新をベイズフィルタおよび平滑化問題として扱う。
これにより、勾配降下のないシーケンシャル/オンライン方式でネットワークパラメータをトレーニングするためのクローズドフォーム表現が可能になる。
論文 参考訳(メタデータ) (2021-10-03T07:29:57Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - A Batch Normalized Inference Network Keeps the KL Vanishing Away [35.40781000297285]
変分オートエンコーダ(VAE)はモデルの後続変数を近似するために広く用いられている。
VAEはしばしば「後崩壊」と呼ばれる退化した局所最適値に収束する
論文 参考訳(メタデータ) (2020-04-27T05:20:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。