論文の概要: Understanding Knowledge Distillation in Post-Training: When It Helps and When It Fails
- arxiv url: http://arxiv.org/abs/2606.22942v1
- Date: Mon, 22 Jun 2026 07:19:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 03:25:06.918904
- Title: Understanding Knowledge Distillation in Post-Training: When It Helps and When It Fails
- Title(参考訳): 後学習における知識蒸留の理解:それが助けになる時と失敗する時
- Authors: Xin Liu, Simin Ma, Shujian Liu, Song Wang, Sathish Reddy Indurthi, Haoyun Deng, Lu Wang, Kaiqiang Song,
- Abstract要約: 大規模言語モデル(LLM)は多くのタスクにおいて高いパフォーマンスを達成するが、その高い計算コストはリソース制約のある環境への展開を制限する。
知識蒸留(KD)は、より大規模な教師モデルからより小さな学生モデルに知識を移すことによって、実践的なソリューションを提供する。
- 参考スコア(独自算出の注目度): 16.73080036450313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) achieve strong performance across many tasks, but their high computational cost limits deployment in resource-constrained environments. Knowledge Distillation (KD) offers a practical solution by transferring knowledge from a teacher model of a larger size to a smaller student model. While prior work has mainly examined task-specific or small-scale settings, the post-training stage for building general instruction-following models has received limited attention. In this paper, we conduct a systematic study of KD in post-training using the large-scale Tulu 3 dataset. We find that KD outperforms supervised fine-tuning (SFT) in low-data regimes, but its advantage diminishes as more training data is added. Distilling from a stronger instruction-tuned teacher restores substantial gains even with abundant data, indicating that KD remains effective when the teacher provides knowledge that the student cannot easily acquire from the training data alone. We further study domain-specific, low-resource scenarios and propose a two-stage KD strategy that leverages synthetic teacher-labeled data followed by refinement on human annotations. This method consistently improves student performance, providing practical guidance for building compact models in data-scarce environments.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くのタスクにおいて高いパフォーマンスを達成するが、その高い計算コストはリソース制約のある環境への展開を制限する。
知識蒸留(KD)は、より大規模な教師モデルからより小さな学生モデルに知識を移すことによって、実践的なソリューションを提供する。
従来,タスク特化や小規模設定を主に検討してきたが,一般教示フォローモデル構築の訓練段階には注目が集まっていない。
本稿では,大規模Tulu 3データセットを用いた後学習におけるKDの体系的研究を行う。
KDは、低データレシエーションにおける教師付き微調整(SFT)よりも優れていますが、より多くのトレーニングデータが加えられるにつれて、その優位性は低下します。
教師が学習データのみから容易に取得できない知識を提供すると、教師はKDが有効であることを示す。
さらに、ドメイン固有の低リソースシナリオについて検討し、合成教師ラベルデータを利用した2段階のKD戦略を提案し、その後、人間のアノテーションを改良する。
この手法は生徒のパフォーマンスを継続的に改善し、データ共有環境でコンパクトなモデルを構築するための実践的なガイダンスを提供する。
関連論文リスト
- MiniPLM: Knowledge Distillation for Pre-Training Language Models [109.83741809808483]
MiniPLM は、大規模な教師 LM を用いて、学生言語モデル (LM) を事前訓練するためのフレームワークである。
効率性のために、MiniPLMはオフラインの教師推論を実行する。
柔軟性のために、MiniPLMはトレーニングコーパスのみで動作し、モデルファミリ間のKDを可能にする。
論文 参考訳(メタデータ) (2024-10-22T17:40:32Z) - Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。