論文の概要: Unlocking Latent Value: Taxonomy-Guided Recovery of High-Performing Data from Low-Tier Web Corpora
- arxiv url: http://arxiv.org/abs/2606.07778v1
- Date: Fri, 05 Jun 2026 18:43:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 11:21:45.151138
- Title: Unlocking Latent Value: Taxonomy-Guided Recovery of High-Performing Data from Low-Tier Web Corpora
- Title(参考訳): 遅延値のアンロック:低階層Webコーパスによる分類誘導による高性能データの復元
- Authors: Neeraj Varshney, Sanket Lokegaonkar, Nasser Zalmout, Qingyu Yin, Priyanka Nigam, Bing Yin,
- Abstract要約: 崩壊文書の品質を1つの複合スコアに事前訓練するための支配的なWebデータパイプライン。
本稿では,合成スコアの獲得に失敗する意味論的意味のある次元に沿ってフィルタリングすることで,この価値を回復する分類学駆動のフレームワークを提案する。
選択したフィルタを優先順位付けされたWebデータに適用すると、分類学的にフィルタリングされたサブセットは、フィルタされていないベースラインを上回り、最高品質のレベルを超えます。
- 参考スコア(独自算出の注目度): 35.23839643059164
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Dominant web data curation pipelines for pretraining collapse document quality into a single composite score, systematically missing high-value content along dimensions the scorer underweights. We present a taxonomy-driven framework that recovers this value by filtering along semantically meaningful dimensions that composite scores fail to capture. First, building on the ESSENTIAL-WEB taxonomy, we introduce two novel dimensions: timeliness and cultural specificity, both of which show low pairwise NMI with existing ones. We annotate 14M documents using Qwen2.5 32B and distill into a lightweight 0.5B model. To enable rapid corpus-wide annotation, we additionally train a 73M multi-task MLP on E5 embeddings, achieving 50x inference throughput. Second, to navigate the combinatorial explosion of filter configurations, we introduce a compute-efficient two-pass framework: Pass 1 identifies the strongest dimension signals at small scale; Pass 2 constructs and evaluates conjunctive and disjunctive compound filters from the top performers - identifying high-performing configurations at a fraction of full scaling-law cost. Applying the selected filters to deprioritized web data, taxonomy-filtered subsets outperform their unfiltered baselines and even surpass the highest-quality tier. On mid-tier data, our best filter improves over its unfiltered baseline by 12.1% on reasoning, 9.5% on coding, and 2.0% on knowledge benchmarks, exceeding unfiltered top-tier data by 6.7% on reasoning and 13.7% on coding. Furthermore, filtered data from two tiers below the typical production threshold improves by 22.3% on reasoning and 19.5% on coding over its unfiltered baseline, surpassing top-tier data on coding benchmarks. These results establish that vast latent value remains locked in deprioritized web data, and that multi-dimensional taxonomy filtering is a principled, compute-efficient key to unlocking it.
- Abstract(参考訳): 崩壊文書品質を1つの複合スコアに事前訓練するための支配的なWebデータキュレーションパイプライン。
本稿では,合成スコアの獲得に失敗する意味論的意味のある次元に沿ってフィルタリングすることで,この価値を回復する分類学駆動のフレームワークを提案する。
まず,エセンチュアル・WEB分類に基づく2つの新しい次元(時系列と文化的特異性)を導入する。
我々はQwen2.5 32Bを用いて14Mの文書に注釈を付け、0.5Bモデルに蒸留する。
高速なコーパスワイドアノテーションを実現するため,E5埋め込み上で73MのマルチタスクMLPをトレーニングし,50倍の推論スループットを実現する。
第二に、フィルタ構成の組合せ的爆発をナビゲートするために、計算効率のよい2パスの枠組みを導入する: Pass 1は小規模で最強の次元信号を特定する; Pass 2はトップパフォーマーから結合性および解離性のある複合フィルタを構築して評価する。
選択したフィルタを優先順位付けされたWebデータに適用すると、分類学的にフィルタリングされたサブセットは、フィルタされていないベースラインを上回り、最高品質のレベルを超えます。
中層データでは、未フィルタリングベースラインを12.1%、コーディング9.5%、知識ベンチマーク2.0%改善し、未フィルタリングトップレベルデータを6.7%、コーディング13.7%上回る。
さらに、典型的な生産しきい値以下の2層からのフィルタリングデータは、推論で22.3%、未フィルタリングベースライン上でのコーディングで19.5%改善し、コーディングベンチマークで上位データを上回っている。
これらの結果は、非優先順位のWebデータに巨大な潜伏値がロックされ続けており、多次元分類分類フィルタリングは、それをアンロックするための原則的、計算効率のよい鍵であることを証明している。
関連論文リスト
- HiFi-RAG: Hierarchical Content Filtering and Two-Pass Generation for Open-Domain RAG [0.29008108937701327]
HiFi-RAGは、MMU-RAGent NeurIPS 2025コンペティションのテキストからテキストへの静的評価において勝利したクローズドソースシステムである。
我々は、クエリの定式化、階層的コンテンツフィルタリング、引用属性にGemini 2.5 Flashの速度とコスト効率を活用し、最終回答生成のためにGemini 2.5 Proの推論能力を保っている。
論文 参考訳(メタデータ) (2025-12-27T02:37:40Z) - FinerWeb-10BT: Refining Web Data with LLM-Based Line-Level Filtering [2.0140381995251713]
本稿では,LLMに基づくラインレベルのフィルタリング手法を導入し,トレーニングデータの品質を向上させる。
我々は、GPT-4o miniを使用して、FineWebから2万のドキュメントサンプルをラインレベルでラベル付けし、低品質の行に対して記述的なラベルを作成できるようにします。
フィルタリングの影響をテストするため、元のデータセットとフィルタリングデータセットの両方でGPT-2モデルをトレーニングする。
論文 参考訳(メタデータ) (2025-01-13T13:26:50Z) - Salience DETR: Enhancing Detection Transformer with Hierarchical Salience Filtering Refinement [19.277560848076984]
2段階の選択戦略は、選択したクエリとオブジェクトのミスマッチによるスケールバイアスと冗長性をもたらす。
本稿では,フィルタされた識別クエリのみにトランスフォーマーを符号化する階層型サリエンスフィルタリング精細化を提案する。
提案されたSalience DETRは、課題固有の3つのデータセットに対して、+4.0% AP、+0.2% AP、+4.4% APを大幅に改善する。
論文 参考訳(メタデータ) (2024-03-24T13:01:57Z) - Frequency-aware Graph Signal Processing for Collaborative Filtering [26.317108637430664]
協調フィルタリングのための周波数対応グラフ信号処理法(FaGSP)を提案する。
まず,理想的な高域通過フィルタと理想的な低域通過フィルタからなるカスケードフィルタモジュールを設計する。
そこで,2つの低域通過フィルタからなる並列フィルタモジュールを考案した。
論文 参考訳(メタデータ) (2024-02-13T12:53:18Z) - Insert or Attach: Taxonomy Completion via Box Embedding [75.69894194912595]
以前のアプローチでは、ユークリッド空間のベクトルとして概念を組み込んでおり、分類学における非対称関係をモデル化することは困難である。
ボックス内埋め込み空間内に2つの特殊な幾何学的スコアラを設計するために,ボックス封じ込めと中心クローズネスを活用するフレームワークであるTaxBoxを開発した。
これらのスコアラーは挿入操作とアタッチメント操作用に調整されており、概念間の本質的な関係を効果的に捉えることができる。
論文 参考訳(メタデータ) (2023-05-18T14:34:58Z) - Filter Pruning based on Information Capacity and Independence [11.411996979581295]
本稿では,フィルタを解釈可能,マルチパースペクティブ,軽量な方法で選択する新しいフィルタプルーニング手法を提案する。
各フィルタに含まれる情報量について,情報容量と呼ばれる新しい指標を提案する。
フィルタ間の相関について、情報独立と呼ばれる別の指標が設計されている。
論文 参考訳(メタデータ) (2023-03-07T04:26:44Z) - Pruning by Active Attention Manipulation [49.61707925611295]
CNNのフィルタプルーニングは典型的には、CNNのフィルタ重みやアクティベーションマップに離散マスクを適用することで達成される。
ここでは、アクティブアテンション操作(PAAM)によるプルーニング(pruning)という新しいフィルタ強調表示概念を提案する。
PAAMはフィルタ重みからアナログフィルタスコアを学習し、そのスコアの加算項によって正規化されたコスト関数を最適化する。
論文 参考訳(メタデータ) (2022-10-20T09:17:02Z) - Training Compact CNNs for Image Classification using Dynamic-coded
Filter Fusion [139.71852076031962]
動的符号化フィルタ融合(DCFF)と呼ばれる新しいフィルタプルーニング法を提案する。
我々は、効率的な画像分類のために、計算経済的および正規化のない方法でコンパクトなCNNを導出する。
我々のDCFFは、72.77MのFLOPと1.06Mのパラメータしか持たないコンパクトなVGGNet-16を導出し、トップ1の精度は93.47%に達した。
論文 参考訳(メタデータ) (2021-07-14T18:07:38Z) - Dependency Aware Filter Pruning [74.69495455411987]
重要でないフィルタを割ることは、推論コストを軽減するための効率的な方法である。
以前の作業は、その重み基準やそれに対応するバッチノームスケーリング要因に従ってフィルタをプルークする。
所望の空間性を達成するために,空間性誘導正規化を動的に制御する機構を提案する。
論文 参考訳(メタデータ) (2020-05-06T07:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。