論文の概要: CuratorKIT : Data Curation and Synthetic Data Generation for LLM Post-Training
- arxiv url: http://arxiv.org/abs/2606.21631v1
- Date: Fri, 19 Jun 2026 17:36:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 04:24:19.984717
- Title: CuratorKIT : Data Curation and Synthetic Data Generation for LLM Post-Training
- Title(参考訳): キュレーターキット : LLM後の学習のためのデータキュレーションと合成データ生成
- Authors: Soham Bhattacharjee, Karun Sharma, Vinay Kumar Sankarapu, Pratinav Seth,
- Abstract要約: CuratorKITはオープンソースのPythonライブラリで、この完全なライフサイクルを単一のパイプラインでカバーしている。
すべてのパイプライン決定は、追加のみのサンプルチェーンに記録され、拒否されたサンプルは、静かに破棄されるのではなく、構造化された障害理由を運ぶ。
- 参考スコア(独自算出の注目度): 3.5786174772957415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data curation is a critical part of post-training pipelines for large language models, yet existing tools often treat ingestion, deduplication, synthetic generation, and quality filtering as separate stages. This fragmentation makes it difficult to audit pipeline decisions or understand why individual samples are rejected. CuratorKIT is an open-source Python library that covers this full lifecycle in a single configurable pipeline. The framework is composed of six source format readers and automatic schema detection, a pre-generation data hygiene layer for credentials, PII, and toxic content, eight LLM-powered generation tasks, three complementary quality gates with provenance-exact hallucination verification, structured adaptive recovery, and five training-ready export formats compatible with TRL, Unsloth, and AlignTune. Every pipeline decision is recorded in an append-only per-sample provenance chain, and rejected samples carry structured failure reasons rather than being silently discarded. CuratorKIT supports 100+ LLM providers through LiteLLM, exposes both a Python API and a YAML-driven CLI, and is designed for practitioners who need reproducible, auditable data pipelines at scale .
- Abstract(参考訳): データキュレーションは、大規模な言語モデルのためのトレーニング後のパイプラインの重要な部分であるが、既存のツールは、しばしば摂取、重複、合成生成、品質フィルタリングを別々のステージとして扱う。
この断片化によって、パイプラインの決定を監査したり、個々のサンプルが拒否される理由を理解するのが難しくなる。
CuratorKITはオープンソースのPythonライブラリで、この完全なライフサイクルを単一の構成可能なパイプラインでカバーしている。
このフレームワークは、6つのソースフォーマットリーダーと自動スキーマ検出、認証、PII、有毒なコンテンツのためのプレジェネレーションデータ衛生層、8つのLCMベースの生成タスク、3つの相補的な品質ゲート、証明仕様の幻覚検証、構造化適応リカバリ、TRL、Unsloth、AlignTuneと互換性のあるトレーニング対応のエクスポートフォーマットで構成されている。
パイプラインのすべての決定は、追加のみのサンプルプロファイランスチェーンに記録され、拒否されたサンプルは、静かに破棄されるのではなく、構造化された障害理由を運ぶ。
CuratorKITはLiteLLMを通じて100以上のLLMプロバイダをサポートし、Python APIとYAML駆動のCLIの両方を公開する。
関連論文リスト
- CLI-Universe: Towards Verifiable Task Synthesis Engine for Terminal Agents [40.27594136040026]
端末エージェントタスクを構成する合成エンジンCLI-Universeを紹介する。
CLI-Universe-6Kと呼ばれる6000のトラジェクトリのデータセットをインスタンス化する。
注目すべきは、CLI-Universe-6K上の微調整Qwen3-32Bはターミナルベンチ2.0で33.4%に達することである。
論文 参考訳(メタデータ) (2026-06-22T05:50:23Z) - DataEvolver: Automatic Data Preparation for Large Language Models through Multi-Level Self-Evolving [55.85201665674226]
大規模言語モデル(LLM)には高品質なトレーニングデータが不可欠である
既存の自動データ準備手法は、事前に定義されたパイプラインやカスタマイズされた人間の指示に依存している。
我々は、パイプラインを自動的に構築して、生データを高品質なデータに変換する、最初の自己進化型データ準備システムであるDataEvolverを紹介する。
論文 参考訳(メタデータ) (2026-06-05T07:44:34Z) - ChipMATE: Multi-Agent Training via Reinforcement Learning for Enhanced RTL Generation [55.947962672433675]
ChipMATEは、RTL生成のための最初の自己学習型マルチエージェントフレームワークである。
ChipMATEは産業的な実践に触発され、VerilogエージェントとPythonのリファレンスモデルエージェントをペアにし、相互に出力を検証する。
ChipMATEは、VerilogEval V2で75.0%と80.1%パス@1を4Bと9Bベースモデルで達成している。
論文 参考訳(メタデータ) (2026-05-13T01:04:21Z) - Align Documents to Questions: Question-Oriented Document Rewriting for Retrieval-Augmented Generation [51.55755193937205]
提案するQREAMは,検索した文書を事実を保存しながら質問指向のスタイルで整列するスタイル制御リライタである。
本フレームワークは,(1) 反復的書き換え探索にスタイリスティックシードを用いたQREAM-ICL,(2) ICL出力から抽出した軽量学生モデルQREAM-FTの2段階からなる。
論文 参考訳(メタデータ) (2026-04-19T08:39:21Z) - Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning [79.88942231770629]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を向上させるための訓練後の中心的なツールとなっている。
統一表記によるロールアウトパイプラインの形式化とGenerate-Filter-Control-Replay(GFCR)の導入
検証可能な報酬、プロセスの監督、判断に基づくゲーティング、ガイドとツリー/セグメントのロールアウト、アダプティブな計算割り当て、早期終了と部分的なロールアウト、スループット最適化、自己改善のための再生/再配置でRLにまたがる手法を合成する。
論文 参考訳(メタデータ) (2026-04-08T00:53:29Z) - Automatic End-to-End Data Integration using Large Language Models [3.188426002064626]
我々は、GPT-5.2を使用して、パイプラインを特定のユースケースに適応させるために必要なすべてのアーティファクトを生成する自動データ統合パイプラインを提案する。
このLLMパイプラインの性能と人間設計パイプラインの性能を3つのケーススタディで比較した。
我々の実験によると、LLMベースのパイプラインは、人間設計のパイプラインのように、いくつかのタスクでさらに良い結果をもたらすことができる。
論文 参考訳(メタデータ) (2026-03-11T08:56:55Z) - From Failure to Mastery: Generating Hard Samples for Tool-use Agents [40.331752086107265]
HardGenは、検証可能な推論を備えたハードツール使用トレーニングサンプルを生成するように設計された自動エージェントパイプラインである。
高度なツールとハードクエリにより、検証可能な複雑なChain-of-Thought(CoT)の生成が可能になる
私たちのコード、モデル、データセットは、将来の研究を促進するためにオープンソース化されます。
論文 参考訳(メタデータ) (2026-01-04T11:56:33Z) - LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls [46.34510189812439]
LoopToolは、完全に自動化され、モデル対応のデータ進化フレームワークである。
3つの相乗的モジュールを通して、データとモデルを反復的に洗練する。
実験によると、LoopToolでトレーニングした8Bモデルは、32Bデータジェネレータを大幅に上回っている。
論文 参考訳(メタデータ) (2025-11-12T09:34:39Z) - FABRIC: Framework for Agent-Based Realistic Intelligence Creation [3.940391073007047]
大規模言語モデル(LLM)はエージェントとしてますます多くデプロイされ、目標を分解し、ツールを実行し、動的環境で結果を検証することが期待されている。
本稿では,LLMのみを用いたエージェントデータの統一化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-20T18:20:22Z) - Beyond Next Token Probabilities: Learnable, Fast Detection of Hallucinations and Data Contamination on LLM Output Distributions [60.43398881149664]
LLM出力シグナチャの効率的な符号化を訓練した軽量アテンションベースアーキテクチャであるLOS-Netを紹介する。
非常に低い検出レイテンシを維持しながら、さまざまなベンチマークやLLMで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-18T09:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。