論文の概要: Hubs or Fringes: Pretraining Data Selection via Web Graph Centrality
- arxiv url: http://arxiv.org/abs/2606.11499v1
- Date: Tue, 09 Jun 2026 22:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.206663
- Title: Hubs or Fringes: Pretraining Data Selection via Web Graph Centrality
- Title(参考訳): Hubs or Fringes: Web Graph Centralityによるデータ選択の事前トレーニング
- Authors: Vedant Badoni, Danqi Chen, Xinyi Wang,
- Abstract要約: WebGraphMixは軽量なデータ選択フレームワークで、Common CrawlホストレベルのWebグラフで構造集中度スコアを計算する。
中央ホストはモデルを再利用可能な抽象化に公開し、周辺ホストは特殊なロングテール知識をエンコードする。
WebGraphMixは、モデルトレーニング、ラベル付きデータ、ダウンストリーム監視を必要としない、Webスケールでの集中度スコアを効率的に計算する。
- 参考スコア(独自算出の注目度): 18.416361225140278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of modern language models depends critically on pretraining data composition. Yet existing data selection methods rely on auxiliary classifiers for document scoring or mixture optimization, adding computational overhead and dependence on labeled data. We propose WebGraphMix, a lightweight data selection framework that computes structural centrality scores over the Common Crawl host-level web graph and uses them to vary the proportion of central versus peripheral documents in the pretraining mixture. We hypothesize that central hosts expose models to reusable abstractions, while peripheral hosts encode specialized, long-tail knowledge. WebGraphMix computes centrality scores efficiently at web scale, requiring no model training, labeled data, or downstream supervision. We integrate WebGraphMix into the DataComp-LM pipeline and train models at 400M and 1B parameter scales with 8B and 28B tokens respectively, evaluating on 23 tasks ranging from factual knowledge to symbolic reasoning. Our experiments show that central and peripheral web regions encode complementary capabilities. Mixture combining both at a ratio of 1:1 achieves 41.4% on average, compared to 39.8% for uniform sampling. Combining structural scores with document-level quality classifier scores further improves performance to 43.8%. These findings demonstrate that web graph topology is a meaningful axis for pretraining data curation, capturing information that is largely orthogonal to existing content-based approaches.
- Abstract(参考訳): 現代の言語モデルの性能は、データ構成の事前学習に大きく依存する。
しかし、既存のデータ選択方法は文書のスコアリングや混合最適化に補助的な分類器を頼り、計算オーバーヘッドとラベル付きデータへの依存を追加する。
我々は,Common CrawlのホストレベルWebグラフ上の構造集中度スコアを計算し,それを用いて,事前学習混合物中の中央および周辺文書の割合を変化させる,軽量なデータ選択フレームワークであるWebGraphMixを提案する。
我々は、中央ホストが再利用可能な抽象化にモデルを公開し、周辺ホストが専門のロングテール知識をエンコードする、という仮説を立てる。
WebGraphMixは、モデルトレーニング、ラベル付きデータ、ダウンストリーム監視を必要としない、Webスケールでの集中度スコアを効率的に計算する。
我々は、WebGraphMixをDataComp-LMパイプラインに統合し、400Mと1Bパラメータスケールで8Bと28Bトークンでトレーニングする。
実験の結果, 中心領域と周辺領域は相補的能力をコードしていることがわかった。
両者を1:1の比で混合すると平均41.4%、均一サンプリングでは39.8%となる。
構造スコアと文書レベルの品質分類器のスコアを組み合わせることで、パフォーマンスはさらに43.8%向上する。
これらの結果から,Webグラフトポロジはデータキュレーションを事前学習するための重要な軸であり,既存のコンテンツベースアプローチとほぼ直交する情報を取得することが示唆された。
関連論文リスト
- OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文 参考訳(メタデータ) (2025-12-16T03:33:24Z) - CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。
ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文 参考訳(メタデータ) (2025-04-17T17:58:13Z) - Enhancing Federated Graph Learning via Adaptive Fusion of Structural and Node Characteristics [26.619187557486708]
Federated Graph Learning (FGL)は、分散クライアント間でグローバルグラフニューラルネットワーク(GNN)モデルをトレーニングするメリットを実証した。
本稿では,FedGCFという新しいFGLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-25T09:20:06Z) - Federated Hypergraph Learning with Local Differential Privacy: Toward Privacy-Aware Hypergraph Structure Completion [9.163655213173067]
FedHGLは、非結合性およびプライバシー制約のあるハイパーグラフパーティションに関する連邦ハイパーグラフ学習のための第一種フレームワークである。
We developed FedHGL, a first-of-in-kind framework for Federated hypergraph learning on disjoint and privacy-constrained hypergraph partitions。
論文 参考訳(メタデータ) (2024-08-09T16:31:41Z) - Hybrid FedGraph: An efficient hybrid federated learning algorithm using graph convolutional neural network [13.786989442742588]
フェデレートラーニング(Federated Learning)は、分散クライアント上の機械学習モデルの分散トレーニングのための新興パラダイムである。
クライアントのサブセットから特徴を学習しながら特徴共有情報をキャプチャするグラフ畳み込みニューラルネットワークを提案する。
また、データのプライバシを保ちながら、各クライアントのディープニューラルネットワークによって生成された機能を集約する、単純だが効果的なクラスタリングアルゴリズムも開発しています。
論文 参考訳(メタデータ) (2024-04-15T04:02:39Z) - Graph Out-of-Distribution Generalization with Controllable Data
Augmentation [51.17476258673232]
グラフニューラルネットワーク(GNN)は,グラフ特性の分類において異常な性能を示した。
トレーニングとテストデータの選択バイアスが原因で、分散偏差が広まっています。
仮想サンプルの分布偏差を測定するためのOODキャリブレーションを提案する。
論文 参考訳(メタデータ) (2023-08-16T13:10:27Z) - Distributed Learning over Networks with Graph-Attention-Based
Personalization [49.90052709285814]
分散ディープラーニングのためのグラフベースパーソナライズアルゴリズム(GATTA)を提案する。
特に、各エージェントのパーソナライズされたモデルは、グローバルな部分とノード固有の部分で構成される。
グラフ内の各エージェントを1つのノードとして扱うことにより、ノード固有のパラメータを特徴として扱うことにより、グラフアテンション機構の利点を継承することができる。
論文 参考訳(メタデータ) (2023-05-22T13:48:30Z) - FedGraph: an Aggregation Method from Graph Perspective [3.1236343261481165]
フェデレートラーニング(FL)は、各クライアントのプライバシを保ちながら、モデルを協調的にトレーニングする効果的なソリューションとなっている。
FedAvgは標準アグリゲーションアルゴリズムであり、各クライアントのデータセットサイズの割合をアグリゲーションウェイトとする。
本稿では,局所モデルのトレーニング条件に応じてアグリゲーション重みを適応的に調整できるFedGraphを提案する。
論文 参考訳(メタデータ) (2022-10-06T07:48:50Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。