論文の概要: A Data-Centric Framework for Detecting and Correcting Corrupted Labels
- arxiv url: http://arxiv.org/abs/2606.11699v1
- Date: Wed, 10 Jun 2026 06:23:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.32401
- Title: A Data-Centric Framework for Detecting and Correcting Corrupted Labels
- Title(参考訳): 故障ラベルの検出と修正のためのデータ中心フレームワーク
- Authors: Ha-Linh Nguyen, Hong-Anh Nguyen, Minh-Duc La, Thu-Trang Nguyen, Son Nguyen, Hieu Dinh Vo,
- Abstract要約: Relabelerは、破損したラベルを検出し修正するためのエンドツーエンドのデータ中心フレームワークである。
実験によると、Relabelerは最先端のベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 3.5676169270901283
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The performance of machine learning and deep learning models largely depends on the quality of the training data. However, the quality of the real-world datasets is often compromised by noisy labels, which can substantially degrade model accuracy and reliability. To address this challenge, we propose Relabeler, an end-to-end data-centric framework for detecting and correcting corrupted labels. For corrupted label detection, Relabeler jointly leverages both local and global relationships among data instances to identify potentially noisy samples. After detecting suspicious instances, Relabeler further performs label correction by estimating the most probable clean label for each instance based on both its input features and observed noisy label. Extensive experiments across multiple datasets, noise types, and noise rates demonstrate that Relabeler consistently outperforms state-of-the-art baselines, achieving up to 58% improvement in label correction precision and 6% improvement in downstream task performance.
- Abstract(参考訳): 機械学習とディープラーニングモデルの性能は、トレーニングデータの品質に大きく依存する。
しかし、実世界のデータセットの品質は、しばしばノイズの多いラベルによって損なわれ、モデル精度と信頼性を著しく低下させる可能性がある。
この課題に対処するために、破損したラベルを検出し修正するためのエンドツーエンドのデータ中心フレームワークであるRelabelerを提案する。
ラベル検出の破損に対して、Relabelerは、データインスタンス間のローカルとグローバルの両方の関係を利用して、潜在的にノイズのあるサンプルを識別する。
不審なインスタンスを検出した後、Relabelerはさらに、その入力特徴と観測されたノイズラベルの両方に基づいて、各インスタンスの最も可能性の高いクリーンラベルを推定してラベル補正を行う。
複数のデータセット、ノイズタイプ、ノイズレートにわたる大規模な実験は、Relabelerが一貫して最先端のベースラインを上回り、ラベル修正精度が最大58%向上し、ダウンストリームタスクのパフォーマンスが6%向上したことを示している。
関連論文リスト
- DiCaP: Distribution-Calibrated Pseudo-labeling for Semi-Supervised Multi-Label Learning [83.94574004953346]
半教師付きマルチラベル学習は、ラベルのないデータを活用してモデルの性能を向上させることを目的としている。
既存の手法の多くは、その品質に関わらず、すべての擬似ラベルに等しい重みを割り当てる。
擬似ラベル重みの校正に後部精度を推定する正当性認識フレームワークDiCaPを提案する。
論文 参考訳(メタデータ) (2025-11-25T11:55:02Z) - Detecting Mislabeled and Corrupted Data via Pointwise Mutual Information [0.9821874476902969]
本稿では,ハイブリッドノイズシナリオ下でのデータ選択のための相互情報に基づくフレームワークを提案する。
各サンプルの総合的な相互情報に対するポイントワイドな寄与を計算し、低い寄与はノイズやラベルの誤りを示す。
ラベルの破損下では、高MIサンプルのトレーニングにより、ランダムサンプリングと比較して、最大15%の分類精度が向上する。
論文 参考訳(メタデータ) (2025-08-11T07:39:20Z) - You can't handle the (dirty) truth: Data-centric insights improve pseudo-labeling [60.27812493442062]
擬似ラベル法を改善するためにラベル付きデータ品質を調査することが重要であることを示す。
具体的には、擬似ラベルの拡張のために、DIPSと呼ばれる新しいデータキャラクタリゼーションと選択フレームワークを導入する。
本研究では,多種多様な実世界のデータセットを対象とした擬似ラベル手法に対するDIPSの適用性と影響を実証する。
論文 参考訳(メタデータ) (2024-06-19T17:58:40Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Two Wrongs Don't Make a Right: Combating Confirmation Bias in Learning
with Label Noise [6.303101074386922]
Robust Label Refurbishment (Robust LR) は、擬似ラベルと信頼度推定技術を組み込んだ新しいハイブリッド手法である。
本手法はラベルノイズと確認バイアスの両方の損傷を軽減できることを示す。
例えば、Robust LRは、実世界のノイズデータセットであるWebVisionにおいて、以前の最高値よりも最大4.5%の絶対的トップ1精度の向上を実現している。
論文 参考訳(メタデータ) (2021-12-06T12:10:17Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Active label cleaning: Improving dataset quality under resource
constraints [13.716577886649018]
ラベルノイズとして知られるデータアノテーションの欠陥は、機械学習モデルのトレーニングに有害である。
この研究は、再アノテーションのためのサンプルを優先順位付けするためのデータ駆動アプローチを提唱する。
評価されたラベルの正しさと各サンプルのラベル付け難易度に応じて格付けを行い,再現性を評価するためのシミュレーションフレームワークを導入する。
論文 参考訳(メタデータ) (2021-09-01T19:03:57Z) - An Ensemble Noise-Robust K-fold Cross-Validation Selection Method for
Noisy Labels [0.9699640804685629]
大規模なデータセットには、ディープニューラルネットワーク(DNN)によって記憶されるような、ラベルのずれたサンプルが含まれている傾向があります。
本稿では, ノイズデータからクリーンなサンプルを効果的に選択するために, アンサンブルノイズ・ロバスト K-fold Cross-Validation Selection (E-NKCVS) を提案する。
我々は,ラベルが手動で異なる雑音比で破損した様々な画像・テキスト分類タスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2021-07-06T02:14:52Z) - Boosting Semi-Supervised Face Recognition with Noise Robustness [54.342992887966616]
本稿では,自動ラベルによるラベル雑音に対して頑健な半教師付き顔認識に対する効果的な解法を提案する。
そこで我々は,gnが強化するロバストな学習能力に基づく,ノイズロバスト学習ラベリング(nroll)という,半教師付き顔認識ソリューションを開発した。
論文 参考訳(メタデータ) (2021-05-10T14:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。