論文の概要: Data Pruning: Redundant, Problematic, and Interdependent Samples
- arxiv url: http://arxiv.org/abs/2606.21916v1
- Date: Sat, 20 Jun 2026 07:27:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 23:55:45.36823
- Title: Data Pruning: Redundant, Problematic, and Interdependent Samples
- Title(参考訳): データプルーニング:冗長、問題、および相互依存のサンプル
- Authors: Leon Freese, Marthinus W. Theunissen,
- Abstract要約: 雑音およびノイズのない条件下での2つの一般的なデータ解析手法について検討する。
これらの手法は,有意なラベルノイズの存在下では失敗する。
データプルーニングの成功は、データセットの冗長性、問題のあるサンプルの存在、サンプル間の相互依存という3つの要因によって明確に影響を受ける。
- 参考スコア(独自算出の注目度): 0.19336815376402716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of deep learning models is affected by not only data quantity but also data quality. Data pruning is a process by which practitioners can reduce the size of a dataset by only keeping the most important training data points, thereby achieving similar test set performance. We empirically investigate two popular data pruning methods under noisy and noiseless conditions and show that these methods fail in the presence of significant label noise. We highlight that the success of data pruning is distinctly affected by three factors: redundancy in the dataset, the presence of problematic samples, and interdependence between samples. We perform a detailed investigation on commonly used benchmark classification datasets and neural network architectures. We find that our observations are consistent across data distributions and training protocols.
- Abstract(参考訳): ディープラーニングモデルの性能は、データ量だけでなく、データ品質にも影響される。
データプルーニング(Data pruning)は、最も重要なトレーニングデータポイントのみを保持することによって、データセットのサイズを縮小し、同様のテストセットのパフォーマンスを実現するプロセスである。
雑音やノイズのない条件下での2つの一般的なデータプルーニング手法を実験的に検討し,これらの手法が有意なラベルノイズの存在下で失敗することを示す。
データプルーニングの成功は、データセットの冗長性、問題のあるサンプルの存在、サンプル間の相互依存という3つの要因によって明確に影響を受ける。
一般的なベンチマーク分類データセットとニューラルネットワークアーキテクチャについて、詳細な調査を行う。
私たちの観察は、データ分散とトレーニングプロトコルに一貫性があることに気付きました。
関連論文リスト
- Understanding Data Influence with Differential Approximation [63.817689230826595]
我々は,Diff-Inと呼ばれる連続学習ステップ間の影響の差を蓄積することにより,サンプルの影響を近似する新しい定式化を導入する。
2次近似を用いることで、これらの差分項を高精度に近似し、既存の手法で必要となるモデル凸性を排除した。
Diff-In は既存の影響推定器に比べて近似誤差が著しく低いことを示す。
論文 参考訳(メタデータ) (2025-08-20T11:59:32Z) - Navigating Data Corruption in Machine Learning: Balancing Quality, Quantity, and Imputation Strategies [8.770864706004472]
欠落や騒々しいデータを含むデータの破損は、現実世界の機械学習において重大な課題を生じさせる。
本研究では,データ破損がモデル性能に与える影響について検討し,これらの効果を緩和するための戦略を探る。
データセットサイズの増加は軽減されるが,データ破損の影響を完全に克服することはできない。
論文 参考訳(メタデータ) (2024-12-24T09:04:06Z) - Data Pruning Can Do More: A Comprehensive Data Pruning Approach for Object Re-identification [13.732596789612362]
この研究は、オブジェクトの再識別タスクに適用されたデータプルーニングメソッドの実現可能性について、最初の研究である。
トレーニング中のロジット履歴を十分に活用することにより,本手法は試料の重要度を定量化するための,より正確で包括的な指標を提供する。
提案手法は高効率であり,従来の手法に比べて10倍のコストで重要なスコア推定を行うことができる。
論文 参考訳(メタデータ) (2024-12-13T12:27:47Z) - Robust Noisy Correspondence Learning via Self-Drop and Dual-Weight [11.523154025649758]
クラウドソーシング(Crowd-sourcing)あるいはWebクローリング(web crawling)は、マッチしないペアを導入する。
現在のアプローチでは、ディープニューラルネットワークの効果を利用してノイズを識別し、再重み付けを行う。
本稿では,データ分割による精巧なデータ処理を実現するための,新たなセルフドロップとデュアルウェイトアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-09T03:06:10Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Benchmark Transparency: Measuring the Impact of Data on Evaluation [6.307485015636125]
6つの異なる次元にまたがるデータポイント分布を自動計測するフレームワークを提案する。
データ分布が絶対値(Acc/F1)と相対値(Rank)モデルの性能にどの程度影響するかを測定するために,不均質な階層化サンプリングを用いる。
その結果,データの影響は統計的に有意であり,測定値の変更の影響よりも大きいことが判明した。
論文 参考訳(メタデータ) (2024-03-31T17:33:43Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Assessing the Quality of the Datasets by Identifying Mislabeled Samples [14.881597737762316]
本稿では,各データ点の品質を測る指標として,新しい統計値(ノイズスコア)を提案する。
本研究では,データ品質管理型変分オートエンコーダ(AQUAVS)の推論ネットワークから導出される表現を用いる。
我々は、MNIST、FashionMNIST、CIFAR10/100データセットを破損させることにより、提案した統計データを検証した。
論文 参考訳(メタデータ) (2021-09-10T17:14:09Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。