論文の概要: Securing Self-supervised Data Curation for Foundation Models Robustness
- arxiv url: http://arxiv.org/abs/2606.09511v1
- Date: Mon, 08 Jun 2026 14:03:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.171552
- Title: Securing Self-supervised Data Curation for Foundation Models Robustness
- Title(参考訳): 基礎モデルのロバスト性に対する自己教師付きデータキュレーションの確保
- Authors: Sandeep Gupta, Roberto Passerone,
- Abstract要約: データキュレーションのための自己教師付き学習(SSL)は、機械学習モデルの一般化能力を拡大し改善するための経路を提供する。
SSLは、アノテーションや手動データセットのキュレーションに関連するコストを大幅に軽減し、人間の監視の必要性を最小限にする。
我々は,基礎モデルトレーニングに先立ってSSL処理データセットの整合性を確保するために,Poisoned Data Detector (PDD)を提案する。
- 参考スコア(独自算出の注目度): 0.18352113484137625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised data curation provides a pathway to scaling and improving the generalization capabilities of machine learning models. By leveraging self-supervised learning (SSL) for data curation, the demand for massive training datasets required by foundation models can be effectively met. SSL greatly alleviates the costs associated with annotation and manual dataset curation while minimizing the need for human oversight. However, the integrity of SSL-curated datasets must be rigorously checked, as reliance on anonymous and unvetted external sources can substantially increase the risk of data poisoning. In this paper, we propose a Poisoned Data Detector (PDD), an active defense mechanism designed to ensure the integrity of SSL-curated datasets prior to foundation model training. PDDs are designed using a combination of the pretrained ImageBind model and traditional classifiers, including Random Forest (RF), k-Nearest Neighbors (KNN), Naive Bayes (NB), and Support Vector Machines (SVM). We rigorously evaluated PDDs using 176,200 images from three diverse datasets and three different adversarial attacks encompassing both in-distribution and out-of-distribution scenarios. Notably, SVM-PDD achieves superior performance for both in-distribution (Set3-Set5) and out-of-distribution (TrueFace and 140K RealFace) datasets. Our design demonstrates strong scalability and enables the rapid integration of new adversarial attack detectors through an ensemble approach.
- Abstract(参考訳): 自己教師型データキュレーションは、機械学習モデルの一般化能力のスケーリングと改善のための経路を提供する。
データキュレーションに自己教師付き学習(SSL)を活用することで、基礎モデルに必要な膨大なトレーニングデータセットの需要を効果的に満たすことができる。
SSLは、アノテーションや手動データセットのキュレーションに関連するコストを大幅に軽減し、人間の監視の必要性を最小限にする。
しかし、匿名および未調査の外部ソースへの依存がデータ中毒のリスクを大幅に増加させる可能性があるため、SSLで計算されたデータセットの完全性は厳格にチェックする必要がある。
本稿では,基礎モデルトレーニングに先立ってSSL処理したデータセットの整合性を確保するために,アクティブな防御機構であるPoisoned Data Detector (PDD)を提案する。
PDDは、事前訓練されたImageBindモデルと、Random Forest (RF)、k-Nearest Neighbors (KNN)、Naive Bayes (NB)、Support Vector Machines (SVM)といった従来の分類器を組み合わせて設計されている。
我々は,3つの多様なデータセットからの176,200の画像と,分布内および分布外の両方のシナリオを含む3つの異なる敵攻撃を用いて,PDDを厳格に評価した。
特に、SVM-PDDは、分散(Set3-Set5)と分散(TrueFaceと140K RealFace)の両方のデータセットに対して優れたパフォーマンスを達成する。
我々の設計は、強力なスケーラビリティを示し、アンサンブルアプローチによる新たな敵攻撃検知器の迅速な統合を可能にする。
関連論文リスト
- No Query, No Access [50.18709429731724]
被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。
被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。
EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
論文 参考訳(メタデータ) (2025-05-12T06:19:59Z) - Robust training of implicit generative models for multivariate and heavy-tailed distributions with an invariant statistical loss [0.5249805590164902]
我々は、引用2024トレーニングで導入されたISL(textitinvariant statistics loss)法に基づいて構築する。
重み付きおよび多変量データ分散を扱うように拡張する。
ジェネレーティブ・ジェネレーティブ・モデリングにおけるその性能を評価し、ジェネレーティブ・ディバイサル・ネットワーク(GAN)の事前学習技術としての可能性を探る。
論文 参考訳(メタデータ) (2024-10-29T10:27:50Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - From Zero to Hero: Detecting Leaked Data through Synthetic Data Injection and Model Querying [10.919336198760808]
分類モデルの学習に使用される漏洩データを検出する新しい手法を提案する。
textscLDSSは、クラス分散の局所的なシフトによって特徴付けられる、少量の合成データを所有者のデータセットに注入する。
これにより、モデルクエリ単独で、リークデータに基づいてトレーニングされたモデルの効果的な識別が可能になる。
論文 参考訳(メタデータ) (2023-10-06T10:36:28Z) - Progressive Feature Adjustment for Semi-supervised Learning from
Pretrained Models [39.42802115580677]
半教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方を利用して予測モデルを構築することができる。
近年の文献では、事前訓練されたモデルで最先端のSSLを適用しても、トレーニングデータの潜在能力を最大限に発揮できないことが示唆されている。
本稿では,ラベルの誤りに敏感でない特徴抽出器を更新するために,非ラベルデータから擬似ラベルを使用することを提案する。
論文 参考訳(メタデータ) (2023-09-09T01:57:14Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D
Object Detection [85.11649974840758]
3Dオブジェクト検出ネットワークは、トレーニングされたデータに対してバイアスを受ける傾向がある。
そこで本研究では,ライダーを用いた3次元物体検出器のソースレス・教師なし領域適応のための単一フレーム手法を提案する。
論文 参考訳(メタデータ) (2021-11-30T18:42:42Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。