論文の概要: Selecting Samples on Graphs: A Unified Dataset Pruning Framework for Lossless Training Acceleration
- arxiv url: http://arxiv.org/abs/2606.12913v1
- Date: Thu, 11 Jun 2026 05:13:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.595981
- Title: Selecting Samples on Graphs: A Unified Dataset Pruning Framework for Lossless Training Acceleration
- Title(参考訳): グラフ上のサンプルの選択: ロスレストレーニングアクセラレーションのための統一データセット実行フレームワーク
- Authors: Dongyue Wu, Zilin Guo, Xiaoyu Li, Jiajia Liu, Jingdong Chen, Nong Sang, Changxin Gao,
- Abstract要約: グラフベースの統合DPフレームワークを提案する。
データセットを重み付きグラフとしてモデル化することにより、DPは最大重み付き傾き問題(MWCP)としてキャストできる。
ResNet-50でImageNet-1kの精度を犠牲にすることなく、トレーニング時間を40%以上短縮する。
- 参考スコア(独自算出の注目度): 71.77541419885925
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid growth of modern training datasets has significantly increased computational cost, motivating dataset pruning~(DP) methods which retain only a subset of informative samples to reduce training cost. Existing pruning criteria typically rely on either intrinsic signals that assess samples independently or extrinsic signals that promote diversity via pairwise relations. While effective in their own specific regimes, each captures only one aspect of sample utility and lacks robustness across different pruning ratios or data distribution. In this work, we present a unified graph-based DP framework. By modeling the dataset as a weighted graph, where node weights encode intrinsic value and edge weights encode extrinsic value, DP can be cast as a Maximum Weight Clique Problem (MWCP). Although MWCP is NP-hard, its structure admits a principled greedy solution based on sample-wise marginal gains. Under a few mild conditions, we further prove that this unified objective enjoys a formal approximation guarantee, which applies to a broad family of importance metrics and provides practical design guidelines. Extensive experiments show that our method outperforms existing DP methods while substantially reducing training cost, reducing training time by over 40\% without sacrificing accuracy on ImageNet-1k with ResNet-50.
- Abstract(参考訳): 現代のトレーニングデータセットの急速な成長は、計算コストを大幅に増加させ、トレーニングコストを削減するために、情報的サンプルのサブセットのみを保持するデータセットプルーニング~(DP)メソッドを動機付けている。
既存のプルーニング基準は、標本を独立に評価する内在的な信号か、あるいは対関係を通じて多様性を促進する外在的な信号に依存するのが一般的である。
独自のレシエーションでは有効だが、それぞれがサンプルユーティリティの1つの側面のみをキャプチャし、異なるプルーニング比やデータ分散の堅牢性に欠ける。
本研究では,グラフベースの統合DPフレームワークを提案する。
データセットを重み付きグラフとしてモデル化することにより、ノード重みが内在値をエンコードし、エッジ重みが外在値をエンコードする。
MWCP は NP-hard であるが、その構造はサンプルワイドの辺縁ゲインに基づく原理的な欲求解を持つ。
いくつかの軽微な条件下では、この統一された目的が、より広範な重要な指標に適用され、実用的な設計ガイドラインを提供する公式な近似保証を享受していることをさらに証明する。
ResNet-50によるImageNet-1kの精度を犠牲にすることなく、トレーニング時間を40%以上削減し、トレーニングコストを大幅に削減し、既存のDP手法よりも優れていることを示す。
関連論文リスト
- OrderDP: A Theoretically Guaranteed Lossless Dynamic Data Pruning Framework [30.771327347534996]
OrderDPは、理論的な保証とともに、安定的で、偏りがなく、ほぼロスレスなトレーニングアクセラレーションを得ることを目的としている。
CIFAR-10, CIFAR-100, ImageNet-1K の総合ベースラインに対する OrderDP の評価を行った。
論文 参考訳(メタデータ) (2026-06-07T11:11:51Z) - UNSEEN: Enhancing Dataset Pruning from a Generalization Perspective [17.593940249922557]
本稿では,既存のデータセットプルーニング手法に統合可能な,プラグアンドプレイフレームワークUNSEENを提案する。
我々はUNSEENを多段階シナリオに拡張し、様々なコアセットに基づいて訓練されたスコアリングモデルを用いて段階的選択手法を提案する。
提案手法は,CIFAR-10,CIFAR-100,ImageNet-1Kにおいて既存のSOTA法よりも優れていた。
論文 参考訳(メタデータ) (2025-11-17T05:17:39Z) - Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - Subsampling Graphs with GNN Performance Guarantees [34.32848091746629]
グラフデータセットに対する新しいサブサンプリング手法を提案する。
サブサンプルデータ上でのGNNのトレーニングは、完全なデータセットでのトレーニングと比較して、損失のバウンド増加をもたらすことを証明している。
論文 参考訳(メタデータ) (2025-02-23T20:21:16Z) - DispFormer: A Pretrained Transformer Incorporating Physical Constraints for Dispersion Curve Inversion [56.64622091009756]
本研究では、レイリー波位相と群分散曲線からプロファイルインバージョンを$v_s$とするトランスフォーマーベースのニューラルネットワークであるDispFormerを紹介する。
DispFormerは各期間に分散データを個別に処理し、ネットワークの変更やデータセットのトレーニングとテストの厳格な調整を必要とせずに、さまざまな長さを処理できる。
論文 参考訳(メタデータ) (2025-01-08T09:08:24Z) - SGM-PINN: Sampling Graphical Models for Faster Training of Physics-Informed Neural Networks [4.262342157729123]
SGM-PINNは物理情報ニューラルネットワーク(PINN)のトレーニング効率を向上させるグラフベースの重要度サンプリングフレームワークである
提案手法の利点を実証し,従来の最先端サンプリング手法と比較して3倍の収束性を実現した。
論文 参考訳(メタデータ) (2024-07-10T04:31:50Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。