論文の概要: Scaling Laws for Task-Specific LLM Distillation
- arxiv url: http://arxiv.org/abs/2606.24747v1
- Date: Tue, 23 Jun 2026 16:09:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.048465
- Title: Scaling Laws for Task-Specific LLM Distillation
- Title(参考訳): タスク特異的LLM蒸留のスケーリング法則
- Authors: Lavinia Ghita, Dhruv Desai, Ioana Boier,
- Abstract要約: 大規模言語モデル(LLM)は、拡大するドメイン全体で強力なパフォーマンスを達成するが、そのスケールは、レイテンシとコストの制約が重要となるアプリケーションにおいて、デプロイメント上の課題を引き起こす。
本稿では,ドメイン固有のLLM圧縮に対する経験的スケーリング法則を導出し,データセットサイズ,圧縮率,監督形式,反復的プルーニングスケジュールによるドメイン内および一般的な知識性能のスケールの定量化を行う。
我々は、ドメイン固有の圧縮決定のための再利用可能なフレームワークを提供するために、見出しデータセットFinHeadlineMix、法律結果のスケーリング、実用的なレコメンデーションをリリースする。
- 参考スコア(独自算出の注目度): 2.4469484645516837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) achieve strong performance across a growing range of domains, yet their scale poses deployment challenges in applications where latency and cost constraints are critical. This paper derives empirical scaling laws for domain-specific LLM compression, quantifying how in-domain and general knowledge performance scale with dataset size, compression ratio, supervision format, and iterative pruning schedule. Using quantitative finance as our application domain, we compare logit-based and LoRA-based distillation under iterative structural pruning, introducing a blended chain-of-thought supervision loss that stabilizes KL-divergence distillation over reasoning traces. In-domain task quality degrades predictably under compression while general-knowledge benchmarks collapse well before the same point; supervision format is the key driver of this tradeoff, with chain-of-thought supervision actively recovering general knowledge that pruning erases. We release the headline dataset FinHeadlineMix, scaling law results, and practical recommendations to provide a reusable framework for domain-specific compression decisions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、拡大するドメイン全体で強力なパフォーマンスを達成するが、そのスケールは、レイテンシとコストの制約が重要となるアプリケーションにおいて、デプロイメント上の課題を引き起こす。
本稿では,ドメイン固有のLLM圧縮に対する経験的スケーリング法則を導出し,データセットサイズ,圧縮率,監督形式,反復的プルーニングスケジュールによるドメイン内および一般的な知識性能のスケールの定量化を行う。
本研究の応用分野として量的ファイナンスを用いて, 反復的構造解析に基づくロジット法とロラ法に基づく蒸留法を比較し, 推理トレースよりもKL分散蒸留を安定化させる連鎖制御損失を混合して導入した。
一般知識ベンチマークは、このトレードオフの鍵となるものであり、チェーン・オブ・シークレットの監督は、プルーニングが消去されるという一般的な知識を積極的に回復させる。
我々は、ドメイン固有の圧縮決定のための再利用可能なフレームワークを提供するために、見出しデータセットFinHeadlineMix、法律結果のスケーリング、実用的なレコメンデーションをリリースする。
関連論文リスト
- Explicit Dropout: Deterministic Regularization for Transformer Architectures [55.09895958546215]
ドロップアウトはディープラーニングにおいて広く使われている正規化手法であるが、その効果は一般的にマスキングによって実現される。
トレーニング損失に直接組み込まれた加算正則化器としてドロップアウトを表現する決定論的定式化を提案する。
論文 参考訳(メタデータ) (2026-04-22T12:45:51Z) - On Multi-Step Theorem Prediction via Non-Parametric Structural Priors [50.16583672681106]
本研究では,インコンテキスト学習(ICL)のレンズによる学習自由な定理予測について検討する。
本稿では,過去の解の時間的依存関係を有向グラフとしてエンコードし,推論中に探索空間を効果的に引き起こす明示的なトポロジ的制約を課すTheorem Precedence Graphsを提案する。
FormalGeo7kベンチマークの実験から,本手法は89.29%の精度を実現し,ICLベースラインを著しく上回り,最先端の教師付きモデルに適合することがわかった。
論文 参考訳(メタデータ) (2026-03-05T06:08:50Z) - WS-GRPO: Weakly-Supervised Group-Relative Policy Optimization for Rollout-Efficient Reasoning [67.45237332694025]
グループ相対政策最適化は、複雑な推論に基づいて言語モデルを訓練するのに効果的である。
Weakly Supervised GRPOを提案し、端末報酬を正当性を考慮したガイダンスに変換することにより、ロールアウト効率を向上させる。
論文 参考訳(メタデータ) (2026-02-19T02:43:35Z) - Enhancing Generalization of Depth Estimation Foundation Model via Weakly-Supervised Adaptation with Regularization [21.788680301776207]
WeSTAR(Weakly supervised Self-Training Adaptation with Regularization)を提案する。
まず、構造的自己超越の主源として、密集した自己学習目標を採用する。
さらにロバスト性を改善するために,意味論的に認識された階層的正規化を導入する。
論文 参考訳(メタデータ) (2025-11-18T08:16:16Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - AttentionRAG: Attention-Guided Context Pruning in Retrieval-Augmented Generation [9.53758114948332]
本稿では,RAGシステムに対する注意誘導型コンテキストプルーニング手法であるAttentionRAGを提案する。
AttentionRAGの中核となる考え方は、RAGクエリを次世代の予測パラダイムに再構成する、注意集中メカニズムにある。
LongBenchとBabilongベンチマークの実験では、AttentionRAGは最大6.3$times$コンテキスト圧縮を達成し、LLMLinguaのメソッドはキーメトリックで約10%上回っている。
論文 参考訳(メタデータ) (2025-03-13T08:22:28Z) - CMR Scaling Law: Predicting Critical Mixture Ratios for Continual Pre-training of Language Models [9.661578977988743]
大規模言語モデル(LLM)は様々なタスクで優れるが、ドメイン固有またはプロプライエタリなコーパスに制限があるため、特殊分野では性能が劣ることが多い。
しかし、一般コーパスとドメイン固有コーパスのデータ混合比は忘れ去られ、実際は準最適トレーニング効率をもたらす。
我々は、一般とドメイン固有の機能間のトレードオフを形式化し、一般とドメインデータの明確に定義された臨界混合比(CMR)をもたらす。
論文 参考訳(メタデータ) (2024-07-24T17:59:02Z) - Neural Pruning via Growing Regularization [82.9322109208353]
プルーニングの2つの中心的な問題:プルーニングのスケジュールと重み付けの重要度だ。
具体的には, ペナルティ要因が増大するL2正規化変種を提案し, 精度が著しく向上することを示した。
提案アルゴリズムは,構造化プルーニングと非構造化プルーニングの両方において,大規模データセットとネットワークの実装が容易かつスケーラブルである。
論文 参考訳(メタデータ) (2020-12-16T20:16:28Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。