論文の概要: An Adaptive Data cleaning Framework for Noisy Label Detection
- arxiv url: http://arxiv.org/abs/2606.07086v1
- Date: Fri, 05 Jun 2026 09:32:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.66937
- Title: An Adaptive Data cleaning Framework for Noisy Label Detection
- Title(参考訳): 雑音ラベル検出のための適応的データクリーニングフレームワーク
- Authors: Chen-Hsuan Fang, Wei-Hsinag Chen, Pin-Hsuan Yu, Jung-Hua Wang, Tsung-Wei Pan,
- Abstract要約: ディープニューラルネットワーク(DNN)は、大きな注釈付きデータセットを与えられたコンピュータビジョンタスクに優れる。
現実世界のアプリケーションでは、ラベルは曖昧さ、ヒューマンエラー、動的環境によってしばしば破損する。
本稿では, 局所的, グローバル的, 学習動的キューを統合し, 頑健な雑音・ラベル検出を実現する自己適応型データクリーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) excel in computer vision tasks given large annotated datasets. In real-world applications, however, labels are often corrupted by ambiguity, human error, or dynamic environments. Over-parameterized DNNs easily memorize these noisy labels during training, degrading model accuracy and generalization. Existing data-cleaning and sample-selection strategies often rely on manually specified thresholds, prior knowledge of the noise ratio, or a single metric (either learning dynamics or geometric structure), making them unstable in complex data regimes. This paper proposes a self-adaptive data-cleaning framework that integrates local, global, and learning dynamics cues for robust noisy-label detection. Samples are mapped into a unified low-dimensional feature space through a modular feature concatenation paradigm. We provide two instantiations: a 2D metric integrating class-adaptive KNN-based local disagreement with k-means-based global centroid distance, and a 3D multi-metric that additionally incorporates a z-normalized score. Unlike conventional 1D Gaussian Mixture Models applied to a single scalar metric, our framework performs multi-metric clustering on the feature space to adaptively partition samples into clean-dominant and noise-dominant components without requiring manual thresholds or noise priors. Experiments on CIFAR-10, MNIST, and ImageNet-100 with 5% to 40% symmetric label noise show high recall across settings, including near-perfect recall (>=98%) on ImageNet-100 at 40% noise. Subsequent training yields accuracy gains across evaluated settings, especially under severe corruption on ImageNet-100. These findings suggest that multi-metric integration provides a threshold-free, practical, and low-tuning strategy for noisy label detection.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、大きな注釈付きデータセットを与えられたコンピュータビジョンタスクに優れる。
しかし、現実世界のアプリケーションでは、ラベルは曖昧さ、ヒューマンエラー、動的環境によってしばしば破損する。
過度パラメータ化されたDNNは、トレーニング中にこれらのノイズラベルを容易に記憶し、モデルの精度を劣化させ、一般化する。
既存のデータクリーニングとサンプル選択戦略は、しばしば手動で指定されたしきい値、ノイズ比の事前知識、または単一のメートル法(学習力学または幾何学構造のいずれか)に依存し、複雑なデータ構造では不安定である。
本稿では, 局所的, グローバル的, 学習動的キューを統合し, 頑健な雑音・ラベル検出を実現する自己適応型データクリーニングフレームワークを提案する。
サンプルはモジュラー特徴連結パラダイムを通じて、統一された低次元特徴空間にマッピングされる。
クラス適応型KNNに基づく局所不一致とk平均型グローバルセントロイド距離を統合した2次元計量と、z正規化スコアを付加した3次元マルチメトリックの2つのインスタンス化を提供する。
従来の1次元ガウス混合モデルが1つのスカラー計量に適用されるのとは異なり、我々のフレームワークは特徴空間上のマルチメトリッククラスタリングを行い、サンプルを手動の閾値やノイズ前処理を必要とせず、クリーンな支配的およびノイズ優先的なコンポーネントに適応的に分割する。
CIFAR-10、MNIST、ImageNet-100の5%から40%の対称ラベルノイズによる実験は、ImageNet-100の40%ノイズでのほぼ完全なリコール(>=98%)を含む、設定全体の高いリコールを示す。
その後のトレーニングでは、特にImageNet-100の深刻な破損の下で、評価された設定間で精度が向上する。
これらの結果から,マルチメトリック統合は,ノイズラベル検出のためのしきい値のない,実用的で,低チューニングの戦略を提供すると考えられる。
関連論文リスト
- Provable Sparse Inversion and Token Relabel Enhanced One-shot Federated Learning with ViTs [77.42033827176806]
ワンショットフェデレートラーニング(One-Shot Federated Learning)は、単一のコミュニケーションラウンドでグローバルモデルを学ぶ中央サーバが、有望なパラダイムとして登場したものだ。
本稿では,合成画像の全パッチをフル活用してグローバルモデルをトレーニングする,新しいフェデレーションモデルインバージョンとトークンリラベルフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-11T15:49:08Z) - Reliable Active Learning from Unreliable Labels via Neural Collapse Geometry [5.1511135538176]
アクティブラーニング(AL)は、情報的なサンプルを優先順位付けすることでアノテーションのコストを削減することを約束するが、ラベルがうるさい場合やデータ分散がシフトした場合、その信頼性は低下する。
本稿では,深層ネットワークの創発的幾何学的規則性を活用し,信頼できない監視に対処するフレームワークである能動学習(NCAL-R)を提案する。
論文 参考訳(メタデータ) (2025-10-10T17:50:31Z) - Machine Unlearning for Robust DNNs: Attribution-Guided Partitioning and Neuron Pruning in Noisy Environments [5.8166742412657895]
ディープニューラルネットワーク(DNN)は、さまざまなドメインで顕著な成功を収めているが、ノイズやトレーニングデータによってそのパフォーマンスが著しく低下する可能性がある。
本稿では,帰属誘導型データパーティショニング,識別的ニューロンプルーニング,およびノイズのあるサンプルの影響を軽減するための微調整を目的とした新しいフレームワークを提案する。
CIFAR-10の標準リトレーニングよりも約10%の絶対精度向上を実現し,ラベルノイズを注入した。
論文 参考訳(メタデータ) (2025-06-13T09:37:11Z) - Combating Label Noise With A General Surrogate Model For Sample Selection [77.45468386115306]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Dynamic Loss For Robust Learning [17.33444812274523]
本研究は,メタラーニングに基づく動的損失を学習プロセスで自動調整し,長い尾の雑音データから分類器を頑健に学習する手法を提案する。
本研究では,CIFAR-10/100,Animal-10N,ImageNet-LT,Webvisionなど,さまざまな種類のデータバイアスを持つ複数の実世界および合成データセットに対して,最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-11-22T01:48:25Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z) - Synergistic Network Learning and Label Correction for Noise-robust Image
Classification [28.27739181560233]
ディープニューラルネットワーク(DNN)は、トレーニングラベルノイズに過度に適合する傾向があるため、実際のモデルパフォーマンスは低下する。
損失選択と雑音補正のアイデアを組み合わせたロバストなラベル補正フレームワークを提案する。
ノイズタイプやレートの異なる合成および実世界のデータセット上で,本手法を実証する。
論文 参考訳(メタデータ) (2022-02-27T23:06:31Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。