論文の概要: Uncertainty-based Debiasing and Unlearning for Decontamination
- arxiv url: http://arxiv.org/abs/2606.23313v1
- Date: Mon, 22 Jun 2026 13:26:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:39:52.456737
- Title: Uncertainty-based Debiasing and Unlearning for Decontamination
- Title(参考訳): 不確実性に基づく脱臭と非学習
- Authors: Guangzhi Sun, Xiao Zhan, Mark Gales,
- Abstract要約: 不確実性に基づく除染(UBD)は、汚染されたモデルやサンプルが汚染された知識を必要とせず、サンプルごとの記憶を推定する。
UBDは、パラフレーズや選択置換ベースラインよりも、汚染されていないモデルの出力分布にかなり近いサンプル単位の出力分布を生成する。
- 参考スコア(独自算出の注目度): 12.593872705071114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmark-based evaluation is the dominant paradigm for assessing large language model (LLM) capabilities, yet data contamination inflates reported performance and undermines fair comparison. Existing decontamination methods are evaluated solely through aggregate accuracy, which can obscure substantial differences in per-sample model behaviour, and many require access to an uncontaminated model. In this paper, we propose a sample-level evaluation framework for decontamination that complements accuracy-based assessment with distributional distance metrics, measuring how closely a decontaminated model recovers the output distribution of an uncontaminated model on each sample. Building on this framework, we introduce Uncertainty-Based Decontamination (UBD), a family of methods that leverage deep ensembles of the contaminated model to estimate per-sample memorization without requiring a uncontaminated model or knowledge of which samples are contaminated. UBD estimates a per-sample correction scalar from ensemble uncertainty, which is used to construct a debiased target distribution that suppresses the inflated probability mass on correct answers induced by contamination. This target is then used either as a post-hoc output correction (debiasing) or as a soft training signal for parameter update (unlearning). Experiments on MMLU-Pro and MATH-MCQA across multiple LLM backbones demonstrate that UBD produces per-sample output distributions substantially closer to those of an uncontaminated model than paraphrasing or choice-permutation baselines, while preserving model performance on uncontaminated data.
- Abstract(参考訳): ベンチマークに基づく評価は,大規模言語モデル(LLM)の性能評価において主要なパラダイムであるが,データ汚染は報告された性能を低下させ,公正な比較を損なう。
既存の除染法は、集合的精度でのみ評価され、サンプルごとのモデル動作に顕著な違いが生じる可能性があり、多くは汚染されていないモデルへのアクセスを必要とする。
本稿では, 精度に基づく評価と分布距離の指標を補完する脱汚染評価フレームワークを提案し, 脱汚染モデルが各試料の未汚染モデルの出力分布をどの程度正確に回復するかを計測する。
この枠組みに基づいて,汚染されたモデルの深いアンサンブルを利用して,汚染されていないモデルやどのサンプルが汚染されているかの知識を必要とせずに,サンプルごとの記憶を推定する手法であるUncertainty-Based Decontamination(UBD)を導入する。
UBDは、アンサンブルの不確実性からサンプルごとの補正スカラーを推定し、汚染によって引き起こされる正しい答えに対して、膨らませられた確率質量を抑える、偏りのあるターゲット分布を構築するために使用される。
このターゲットは、ポストホック出力補正(デバイアス)またはパラメータ更新(アンラーニング)のためのソフトトレーニング信号として使用される。
複数のLCMバックボーンを用いたMMLU-ProおよびMATH-MCQAの実験により、UBDは非汚染データ上でのモデル性能を保ちながら、パラフレーズや選択置換ベースラインよりも非汚染モデルに近い出力分布を生成することを示した。
関連論文リスト
- A Theoretical Framework for Statistical Evaluability of Generative Models [57.9316356505791]
本稿では、生成モデルを評価するための理論的枠組みを導入し、一般的なメトリクスに対する評価結果を確立する。
テストベースのメトリクス、例えば積分確率測定(IPM)とレニイ発散(Rényi divergences)の2つのカテゴリについて検討する。
任意の有界テストクラスに対するIPMは、乗法および加法近似誤差まで有限標本から評価できることを示す。
対照的に、レニイとKLの発散は、希少事象によってその値が批判的に決定されるため、有限標本から評価できない。
論文 参考訳(メタデータ) (2026-04-07T01:53:59Z) - Heterogeneous Multisource Transfer Learning via Model Averaging for Positive-Unlabeled Data [2.030810815519794]
本研究では,異種データソースからの情報を直接データ共有なしで統合するトランスファー学習フレームワークを提案する。
各ソースドメインタイプに対して、調整されたロジスティック回帰モデルを実行し、平均化によって知識をPUターゲットドメインに転送する。
提案手法は,特にラベル付きデータや異種環境において,予測精度とロバスト性において,他の比較手法よりも優れる。
論文 参考訳(メタデータ) (2025-11-14T03:15:31Z) - Reference-Specific Unlearning Metrics Can Hide the Truth: A Reality Check [60.77691669644931]
本研究では,非学習モデルと参照モデル間の分布類似度を測定する新しい尺度であるFADE(Functional Alignment for Distributional Equivalence)を提案する。
FADEは出力分布全体の機能的アライメントをキャプチャし、真の未学習の原則的評価を提供する。
これらの知見は、現在の評価実践における根本的なギャップを明らかにし、FADEが真に効果的な未学習手法を開発し評価するための、より堅牢な基盤を提供することを示した。
論文 参考訳(メタデータ) (2025-10-14T20:50:30Z) - DDB: Diffusion Driven Balancing to Address Spurious Correlations [24.940576844328408]
経験的リスク最小化でトレーニングされたディープニューラルネットワークは、アウト・オブ・ディストリビューションのサンプルに一般化できないことが多い。
テキストと画像の拡散モデルを用いたトレーニングサンプルを生成するための拡散駆動バランス(DDB)手法を提案する。
実験の結果,本手法は既存の最先端手法よりもグループ精度がよいことがわかった。
論文 参考訳(メタデータ) (2025-03-21T15:28:22Z) - Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
一般のスコアミスマッチ拡散サンプリング器に対する明示的な次元依存性を持つ最初の性能保証を示す。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Informed Correctors for Discrete Diffusion Models [27.295990499157814]
離散拡散モデルに対する予測・相関型サンプリング手法を提案する。
情報補正器は,誤差が少なく,FIDスコアが向上した優れたサンプルを連続的に生成することを示す。
本結果は,離散拡散を用いた高速かつ高忠実な生成のための情報補正器の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-07-30T23:29:29Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - ConStat: Performance-Based Contamination Detection in Large Language Models [7.305342793164905]
コンスタット(ConStat)は、参照モデルの集合に対する一次ベンチマークと参照ベンチマークのパフォーマンスを比較することで、汚染を確実に検出し、定量化する統計手法である。
多様なモデルアーキテクチャ,ベンチマーク,汚染シナリオの広範な評価において,ConStatの有効性を実証する。
論文 参考訳(メタデータ) (2024-05-25T15:36:37Z) - Quantifying the Uncertainty in Model Parameters Using Gaussian
Process-Based Markov Chain Monte Carlo: An Application to Cardiac
Electrophysiological Models [7.8316005711996235]
パーソナライズされたモデリングには,患者固有のモデルパラメータの推定が重要である。
標準マルコフ連鎖モンテカルロサンプリングは、計算不可能な繰り返しモデルシミュレーションを必要とする。
一般的な解決策は、より高速なサンプリングのためにシミュレーションモデルを計算効率の良いサロゲートに置き換えることである。
論文 参考訳(メタデータ) (2020-06-02T23:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。