論文の概要: Post-training is (Massive) Supervised Learning
- arxiv url: http://arxiv.org/abs/2606.07527v1
- Date: Mon, 20 Apr 2026 08:52:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.677635
- Title: Post-training is (Massive) Supervised Learning
- Title(参考訳): ポストトレーニングは(主観的な)指導的学習である
- Authors: Michael Hassid, Yossi Adi, Roy Schwartz,
- Abstract要約: LLMの訓練の主流となるパラダイムは、SFTとRLからなる大規模な訓練後フェーズに依存するように進化してきた。
我々は,この手法が,BERT時代のプレトレインおよびファインチューンアプローチへの回帰を効果的に示していると論じる。
- 参考スコア(独自算出の注目度): 35.992105178197185
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The prevailing paradigm for training LLMs has evolved to rely on a massive post-training phase consisting of SFT and RL. In this position paper, we argue that this methodology effectively marks a reversion to the ``pre-train then fine-tune'' approach of the BERT era, explicitly tailoring models to the desired behaviors and specific benchmarks on which they are evaluated. We begin with a historical overview of LLMs, describing the different phases of the LLM evolution. We argue that the current landscape is remarkably similar to the early days of LLMs, where task performance heavily relied on fitting the models to in-distribution datasets. To empirically demonstrate this, we compare pre-trained models to randomly initialized ones, by fine-tuning both variants on modern reasoning datasets and evaluating them on competitive math and code benchmarks. We show that models post-trained from scratch yield highly non-trivial performance. Our findings suggest that current post-training methodologies function primarily as a distribution-fitting mechanism. We finish by positing that developing generally capable models and systems requires moving beyond extensive post-training for predefined behaviors, shifting instead toward training procedures where models ``learn how to learn''.
- Abstract(参考訳): LLMの訓練の主流となるパラダイムは、SFTとRLからなる大規模な訓練後フェーズに依存するように進化してきた。
本稿では,この手法がBERT時代の「pre-train then fine-tune'」アプローチの逆転を効果的に示し,モデルが望ましい行動や評価対象の具体的なベンチマークを明示的に調整するものであることを論じる。
まず、LLMの進化の異なる相について記述し、LLMの歴史的概要から始める。
現在の状況は、タスクパフォーマンスがモデルを分散データセットに適合させることに大きく依存していたLDMの初期と非常によく似ている、と我々は主張する。
これを実証的に示すために、我々は事前学習されたモデルとランダムに初期化したモデルを比較し、現代の推論データセット上で両方の変種を微調整し、競争力のある数学とコードベンチマークで評価する。
また,スクラッチからトレーニング後のモデルでは,非自明な性能が得られることを示した。
本研究は,現状のポストトレーニング手法が主に分布適合機構として機能することが示唆された。
一般的に有能なモデルやシステムを開発するには、事前定義された振る舞いのために広範なポストトレーニングを超えて、モデルが‘学習方法を学ぶ’ようなトレーニング手順に移行する必要がある、と結論付けています。
関連論文リスト
- On Predicting the Post-training Potential of Pre-trained LLMs [60.07459271263409]
本稿では,ポストトレーニング前のベースモデルの性能予測という,ポストトレーニング後の潜在能力を予測するための新しいタスクを紹介する。
本稿では,応答判別を活用することで,ベースモデルの生成ギャップを回避できる統一フレームワークであるRuDEを提案する。
実験では、トレーニング後のパフォーマンスと90%以上の相関を示す。
論文 参考訳(メタデータ) (2026-05-12T11:33:49Z) - The Pre-Training Study of Expanded-SPLADE Models on Web Document Titles [0.08949202626090576]
本稿では,事前学習データセットと事前学習オプションが,検索微調整のための事前学習モデルに及ぼす影響について検討する。
未刈取と最も厳密な刈取の両方において高い検索効率の微調整されたモデルは、概ね一般コーパスで事前訓練されている。
論文 参考訳(メタデータ) (2026-05-02T12:07:49Z) - Estimating the Effects of Sample Training Orders for Large Language Models without Retraining [49.59675538160363]
大規模言語モデル(LLM)において,サンプルの訓練順序が重要な役割を担っている
従来の手法では、様々なサンプル順序でモデルを再訓練する必要がある。
リトレーニングフリーのフレームワークを設計することで従来の手法を改善します。
論文 参考訳(メタデータ) (2025-05-28T07:07:02Z) - How Post-Training Reshapes LLMs: A Mechanistic View on Knowledge, Truthfulness, Refusal, and Confidence [52.9442657690445]
大規模言語モデル(LLM)の成功にはポストトレーニングが不可欠である
学習後効果をよりよく理解するために,4つの視点からベースとポストトレーニング後のLLMを比較した。
論文 参考訳(メタデータ) (2025-04-03T06:30:55Z) - Efficient Model Selection for Time Series Forecasting via LLMs [52.31535714387368]
本稿では,Large Language Models (LLM) をモデル選択の軽量な代替手段として活用することを提案する。
提案手法は, LLMの固有知識と推論能力を活用することで, 明示的な性能行列の必要性を解消する。
論文 参考訳(メタデータ) (2025-04-02T20:33:27Z) - Provable Meta-Learning with Low-Rank Adaptations [37.120226706944926]
本稿では,PEFTをベースとしたメタラーニングフレームワークを導入し,未知のタスクに容易に適応できるモデルを学習する。
LoRAを用いた線形モデルでは、適応可能なパラメータの集合を見つけるのに標準再学習が確実に最適であることを示す。
我々は、これらの理論的洞察を、実データビジョンや言語タスクと同様に、合成データの実験を通じて検証する。
論文 参考訳(メタデータ) (2024-10-29T17:24:18Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - FairSISA: Ensemble Post-Processing to Improve Fairness of Unlearning in
LLMs [6.689848416609951]
大規模言語モデル(LLM)における未学習と公平性の相互作用について検討する。
我々は、SISAとして知られる人気のある非学習フレームワークに焦点を当て、非結合シャードで訓練されたモデルのアンサンブルを作成する。
SISAによるアンサンブルモデルに対する後処理バイアス軽減手法を提案する。
論文 参考訳(メタデータ) (2023-12-12T16:44:47Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。