論文の概要: DataEvolver: Automatic Data Preparation for Large Language Models through Multi-Level Self-Evolving
- arxiv url: http://arxiv.org/abs/2606.07001v2
- Date: Wed, 10 Jun 2026 07:54:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 14:23:44.336354
- Title: DataEvolver: Automatic Data Preparation for Large Language Models through Multi-Level Self-Evolving
- Title(参考訳): DataEvolver:マルチレベル自己進化による大規模言語モデルの自動データ準備
- Authors: Chao Deng, Shaolei Zhang, Ju Fan, Xiaoyong Du,
- Abstract要約: 大規模言語モデル(LLM)には高品質なトレーニングデータが不可欠である
既存の自動データ準備手法は、事前に定義されたパイプラインやカスタマイズされた人間の指示に依存している。
我々は、パイプラインを自動的に構築して、生データを高品質なデータに変換する、最初の自己進化型データ準備システムであるDataEvolverを紹介する。
- 参考スコア(独自算出の注目度): 55.85201665674226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality training data is essential to large language models (LLMs) and typically requires extensive and costly manual curation. Existing automatic data preparation methods rely on predefined pipelines or customized human instructions, which limits their adaptability to diverse data distributions and lacks principled guidance from high-quality examples. In this paper, we introduce DataEvolver, the first self-evolving data preparation system that automatically constructs pipelines to transform raw data into high-quality data. DataEvolver employs a multi-level mechanism to ensure both pipeline executability and effectiveness. At the operator level, it incrementally expands the operator set to construct a logical plan while resolving dependency conflicts. At the pipeline level, it instantiates logical plans into executable code and iteratively refines pipeline orchestration through a feedback loop that reduces the distribution gap between prepared data and high-quality examples. Experiments on seven benchmarks show that DataEvolver substantially improves data quality and achieves an average 10\% gain in downstream LLM performance compared with training on original data, highlighting new opportunities for the iterative co-evolution of LLMs and data.
- Abstract(参考訳): 高品質なトレーニングデータは、大きな言語モデル(LLM)に必須であり、通常は広範囲で高価な手作業によるキュレーションを必要とする。
既存の自動データ準備手法は、事前に定義されたパイプラインやカスタマイズされた人間の指示に依存しており、多様なデータ分布への適応性が制限され、高品質な例からの原則化されたガイダンスが欠如している。
本稿では,パイプラインを自動構築して生データを高品質なデータに変換する,最初の自己進化型データ準備システムであるDataEvolverを紹介する。
DataEvolverは、パイプラインの実行可能性と有効性の両方を保証するために、マルチレベルメカニズムを採用している。
演算子レベルでは、依存関係の競合を解決しながら論理的な計画を構築するために演算子セットを漸進的に拡張する。
パイプラインレベルでは、論理的な計画を実行可能なコードにインスタンス化し、フィードバックループを通じてパイプラインオーケストレーションを反復的に洗練することで、準備されたデータと高品質なサンプル間の分散ギャップを低減する。
7つのベンチマークでの実験では、DataEvolverはデータ品質を大幅に改善し、元のデータでのトレーニングと比較して、下流のLLMのパフォーマンスが平均10倍向上し、LLMとデータの反復的共進化の新たな機会を強調している。
関連論文リスト
- Towards Next-Generation LLM Training: From the Data-Centric Perspective [29.115711465172122]
大規模言語モデル(LLM)は、様々なタスクやドメインで顕著なパフォーマンスを示しており、データはこれらの進歩を可能にする上で中心的な役割を果たす。
この成功にもかかわらず、LLMトレーニングに必要な大量のデータセットの準備と有効利用は大きなボトルネックのままである。
本稿では、ワークフローの自動構築とスケーラブルなデータ管理をサポートする、堅牢でエージェントベースの自動データ準備システムの構築を提案する。
我々は、トレーニングプロセスを通してデータを動的に選択し、混合し、再重み付けし、より効率的で適応的で、パフォーマンスに配慮したデータ利用を可能にする統一されたデータモデルインタラクショントレーニングシステムについて論じる。
論文 参考訳(メタデータ) (2026-03-16T01:40:09Z) - Data Science and Technology Towards AGI Part I: Tiered Data Management [53.64581824953229]
我々は、人工知能の開発がデータモデル共進化の新しい段階に入ったと論じる。
我々は、未処理のリソースから組織的で検証可能な知識まで、L0-L4階層のデータ管理フレームワークを紹介します。
提案手法の有効性を実証研究により検証する。
論文 参考訳(メタデータ) (2026-02-09T18:47:51Z) - LLM-AutoDP: Automatic Data Processing via LLM Agents for Model Fine-tuning [12.792070502265616]
大規模言語モデル(LLM)は、専門分野の性能を高めるために、ドメイン固有のデータに基づいて微調整することができる。
このようなデータには、多くの低品質なサンプルが含まれており、効果的なデータ処理(DP)を必要としている。
論文 参考訳(メタデータ) (2026-01-28T08:37:34Z) - Closing the Data Loop: Using OpenDataArena to Engineer Superior Training Datasets [46.480867560675584]
アドホックなキュレーションからOpenDataArena(ODA)を用いたクローズドループデータセットエンジニアリングフレームワークへのパラダイムシフトを提案する。
textbfODA-Math460-kは、AIMEやHMMTなどのベンチマークでステート・オブ・ザ・アーツ(SOTA)結果を達成するために、新しい2段階の難易度対応パイプラインを利用する特殊な数学推論データセットであり、textbfODA-Mixture (100k & 500k) はアンカー・アンド・アンカーで構築された一連のマルチドメイン命令データセットである。
論文 参考訳(メタデータ) (2025-12-30T17:46:38Z) - DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI [42.191938707504406]
DataFlowは、統一的でLLM駆動のデータ準備フレームワークである。
システムレベルの抽象化により、モジュラー、再利用可能な、構成可能なデータ変換が可能になる。
DataFlowは、ダウンストリームのLarge Language Modelsのパフォーマンスを継続的に改善します。
論文 参考訳(メタデータ) (2025-12-18T15:46:15Z) - Aligning Instruction Tuning with Pre-training [61.50161961371844]
そこで我々は,AITP(Aligning Instruction Tuning with Pre-training)を提案する。
8つのベンチマークで3つの完全にオープンな大規模言語モデル(LLM)上で,AITPによる一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-01-16T08:27:40Z) - RECOST: External Knowledge Guided Data-efficient Instruction Tuning [25.985023475991625]
我々は、現在のデータ効率のよい命令チューニング手法は、元の命令チューニングデータセットの品質に大きく依存していると論じる。
我々は、外部知識ベースの再評価と多様性に一貫性のあるサンプリングを単一のパイプラインに統合する、textbfRECOSTと呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-27T09:47:36Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。