論文の概要: Scaling LLM Knowledge Boundaries via Distribution-Optimized Synthesis
- arxiv url: http://arxiv.org/abs/2606.23271v1
- Date: Mon, 22 Jun 2026 12:50:00 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-24 20:32:01.556976
- Title: Scaling LLM Knowledge Boundaries via Distribution-Optimized Synthesis
- Title(参考訳): 分布最適化合成によるLLM知識境界のスケーリング
- Authors: Songze Li, Yarong Lan, Zhongpu Bo, Zhaoyang Wang, Zhiqiang Liu, Yuan Yuan, Chengtao Gan, Menghao Qian, Enpei Niu, Xiaoke Guo, Yuanxiang Liu, Zhaoyan Gong, Xiangjin Hu, Liangyurui Liu, Jingdian Lu, Lei Liang, Jun Zhou, Huajun Chen, Wen Zhang,
- Abstract要約: 本稿では,3段階のフィードバック機構を通じて,知識密度を導入して合成を促進するフレームワークを提案する。
我々は0.6Bから16B(Qwen,Ling,LLaMA)のモデルと1Bから5Bトークンのデータスケールの実験を行う。
主な発見は,(1)最適知識分布は境界展開を一貫して最大化し,(2)この分布はバックボーンとスケールで安定であり,(3)KDoSは6つの知識ベンチマークでベースラインを上回っている。
- 参考スコア(独自算出の注目度): 50.70475580369854
- License:
- Abstract: Knowledge injection via synthetic data is crucial for enhancing Large Language Models (LLMs). However, current synthesis methods simply stop at preset token counts or fixed data ratios, lacking awareness of knowledge distribution. This results in some domains being sparse while others are redundant, limiting LLM knowledge boundaries. We revisit knowledge injection from a distribution perspective and hypothesize that an optimal knowledge distribution exists to maximize knowledge boundary expansion. We propose KDoS (Knowledge Distribution-optimized Synthesis), a framework that introduces knowledge density to drive synthesis through a three-stage feedback mechanism, shifting from blind generation to distribution-optimized synthesis. We construct Wikipedia-based synthetic data with varying knowledge distributions and conduct experiments on models from 0.6B to 16B (Qwen, Ling, LLaMA) and data scales from 1B to 5B tokens. Our key findings are: (1) an optimal knowledge distribution consistently maximizes boundary expansion; (2) this distribution is stable across backbones and scales; (3) KDoS outperforms baselines across six knowledge benchmarks. Our work offers a new perspective and practical framework for synthetic data-driven knowledge injection.
- Abstract(参考訳): 合成データによる知識注入は、Large Language Models(LLM)の強化に不可欠である。
しかし、現在の合成法は、単に予め設定されたトークン数または固定データ比率で停止し、知識分布の認識を欠いている。
この結果、いくつかのドメインはスパースであり、他のドメインは冗長であり、LSMの知識境界を制限する。
我々は,分布の観点から知識注入を再考し,知識境界拡大を最大化するために最適な知識分布が存在することを仮定する。
KDoS(Knowledge Distribution-Optimized Synthesis)は、3段階のフィードバック機構を通じて知識密度を導入し、ブラインド生成から分布最適化合成へ移行するフレームワークである。
知識分布の異なるウィキペディアベースの合成データを構築し,0.6Bから16B(Qwen,Ling,LLaMA)および1Bから5Bトークンのデータスケールで実験を行う。
主な知見は,(1)最適知識分布は境界展開を一貫して最大化し,(2)この分布はバックボーンとスケールで安定であり,(3)KDoSは6つの知識ベンチマークでベースラインを上回っている。
我々の研究は、データ駆動型知識注入のための新しい視点と実践的なフレームワークを提供する。
関連論文リスト
- Generating Pretraining Tokens from Organic Data for Data-Bound Scaling [28.30636190022749]
SynProは、LLMが限られた有機データからより深く学習するのに役立つ合成データ生成フレームワークである。
我々は,DCLMベースラインからチンチラ最適トークン(0.8Bおよび2.2B)の10%を有する400Mおよび1.1Bモデルを事前訓練した。
以上の結果から, 有機データは標準的繰り返しによって著しく過小評価されていることが明らかとなった。
論文 参考訳(メタデータ) (2026-05-18T04:44:40Z) - EruDiff: Refactoring Knowledge in Diffusion Models for Advanced Text-to-Image Synthesis [49.883192716595026]
EruDiffは、難解な暗黙のプロンプトの知識分布を、明確に定義された明示的なアンカーの知識分布と整合させることを目指している。
そこで我々はDK-DM (Diffusion Knowledge Distribution Matching) を開発し、暗黙的なプロンプトの知識分布を、明確に定義された明示的なアンカーの知識分布に登録する。
我々は, きめ細かい補正にNO-RL戦略を用いる。
論文 参考訳(メタデータ) (2026-03-21T14:04:08Z) - Key-Augmented Neural Triggers for Knowledge Sharing [3.8718804267599416]
Key-Augmented Neural Triggersは、知識アンカーをトレーニングと推論の両方に組み込む。
局所的なコンテキストにおけるフラグメンテーションとグラウンドディング推論を減らす。
スケーラブルで低レイテンシでオンプレミスのデプロイメントに適している。
論文 参考訳(メタデータ) (2025-08-05T11:40:56Z) - Structural Entropy Guided Agent for Detecting and Repairing Knowledge Deficiencies in LLMs [11.724887822269528]
大規模言語モデル(LLM)は、膨大な事前学習コーパスを活用することで、前例のない性能を達成した。
彼らの業績は、医学や科学研究のような知識集約的な領域において、依然として最適以下である。
本稿では,LLMの内在的知識不足に対処する構造エントロピー誘導型知識ナビゲータ(SENATOR)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-12T02:21:36Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Propagating Knowledge Updates to LMs Through Distillation [97.3628651636153]
文脈に基づくアプローチは、エンティティに関する知識を付与し、その知識を広めてより広範な推論を可能にすることができることを示す。
実験により,本手法は,微調整や他の勾配に基づく知識編集手法よりも,知識更新の伝播に有効であることが実証された。
論文 参考訳(メタデータ) (2023-06-15T17:39:50Z) - Principled Knowledge Extrapolation with GANs [92.62635018136476]
我々は,知識外挿の新たな視点から,対実合成を研究する。
本稿では, 知識外挿問題に対処するために, クローズド形式判別器を用いた対角ゲームが利用可能であることを示す。
提案手法は,多くのシナリオにおいて,エレガントな理論的保証と優れた性能の両方を享受する。
論文 参考訳(メタデータ) (2022-05-21T08:39:42Z) - Surrogate- and invariance-boosted contrastive learning for data-scarce
applications in science [2.959890389883449]
3つの安価な情報ソースを組み込んだ深層学習フレームワークであるSurrogate- and invariance-boosted contrastive Learning (SIB-CL)を導入し、データの不足を克服する。
2次元フォトニック結晶の密度を予測し、3次元時間非依存のシュロディンガー方程式を解くなど、SIB-CLの有効性と様々な科学的問題に対する一般性を示す。
論文 参考訳(メタデータ) (2021-10-15T23:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。