論文の概要: How Post-Training Shapes Biological Reasoning Models
- arxiv url: http://arxiv.org/abs/2606.16517v1
- Date: Mon, 15 Jun 2026 10:19:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.449113
- Title: How Post-Training Shapes Biological Reasoning Models
- Title(参考訳): 実験後の形状が生物共振モデルにどのように影響するか
- Authors: Lukas Fesser, Hanlin Zhang, Michelle M. Li, Eric Wang, Bryan Perozzi, Shekoofeh Azizi, Sham M. Kakade, Marinka Zitnik,
- Abstract要約: 本研究は, バックボーンの制御変化, 事前トレーニング, 教師付き微調整, 強化学習における100以上の生物学的推論モデルを訓練し, 評価した。
各ポストトレーニング段階は、一様ゲインに寄与するのではなく、別の方法で一般化を期待できる。
- 参考スコア(独自算出の注目度): 50.53183971442794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific reasoning models for biology combine language models with foundation models trained on multimodal biological data, including DNA, RNA, and proteins. These models are built through post-training, yet how each stage shapes reasoning and generalization remains poorly understood. We study when post-training improves performance and when it induces over-specialization. Across genomics, transcriptomics, and proteins, we train and evaluate more than 100 biological reasoning models under controlled variation in backbone, continued pre-training (CPT), supervised fine-tuning (SFT), and reinforcement learning (RL), measuring both in-domain (ID) and out-of-domain (OOD) performance. We find that each post-training stage reshapes generalization in a distinct way rather than contributing uniform gains. CPT improves downstream performance by aligning models with biological language. SFT consistently increases ID performance but causes OOD performance to peak early and decline as models fit the training distribution. RL, when applied to strong SFT checkpoints with aligned rewards, improves OOD performance and partially recovers generalization. These results show that biological reasoning does not improve monotonically with additional supervision or compute. Instead, performance depends on how training stages are composed. Under fixed post-training budgets, the strongest ID-OOD trade-off comes from brief SFT, larger RL allocations, and asymmetric adaptation capacity across stages.
- Abstract(参考訳): 生物学の科学的推論モデルは、言語モデルとDNA、RNA、タンパク質を含む多モーダルな生物学的データに基づいて訓練された基礎モデルを組み合わせる。
これらのモデルはポストトレーニングによって構築されるが、各段階が推論や一般化をどのように形成するかは理解されていない。
本研究では,ポストトレーニングがパフォーマンスを向上し,オーバースペシャライゼーションを誘発する時期について検討する。
ゲノム学, 転写学, タンパク質全体にわたって, バックボーンの制御変化, CPT, 教師付き微調整(SFT), 強化学習(RL), ドメイン内(ID)とドメイン外(OOD)の両方のパフォーマンスを計測し, 100以上の生物学的推論モデルを訓練し, 評価した。
各ポストトレーニング段階は、一様ゲインに寄与するのではなく、別の方法で一般化を期待できる。
CPTは、モデルと生物学的言語を整合させることで、下流のパフォーマンスを改善する。
SFTはID性能を継続的に向上するが、トレーニング分布に適合するモデルによってOOD性能は早期にピークに達し、低下する。
RLは、強いSFTチェックポイントにアライメントされた報酬で適用すると、OOD性能を改善し、部分的に一般化を回復する。
これらの結果は、生物学的推論は、追加の監督や計算によって単調に改善しないことを示している。
代わりに、パフォーマンスはトレーニングステージの構成方法によって異なります。
一定の訓練後予算の下では、最も強力なID-OODトレードオフは、短いSFT、より大きなRL割り当て、ステージ間の非対称適応能力である。
関連論文リスト
- Why Does Reinforcement Learning Generalize? A Feature-Level Mechanistic Study of Post-Training in Large Language Models [51.45122910254346]
強化学習(RL)に基づくポストトレーニングは、トレーニングドメインを超えた大規模言語モデルの推論性能を改善することが多い。
Supervised Fine-tuning (SFT) はしばしば一般的な忘れる能力をもたらす。
制御された実験装置を用いてRL一般化を探索する特徴レベル力学解析手法を提案する。
論文 参考訳(メタデータ) (2026-04-27T21:22:34Z) - Understanding the Role of Hallucination in Reinforcement Post-Training of Multimodal Reasoning Models [54.50728814348712]
強化学習(RL)は、視覚的推論能力を高めるために、MLLM(Multimodal Large Language Models)の訓練後におけるRLの採用の増加にインスピレーションを与えている。
本稿では,Halucination-as-Cueフレームワークを提案し,モデル幻覚の観点からのマルチモーダル推論モデルに対するRLベースのポストトレーニングの効果について検討する。
論文 参考訳(メタデータ) (2026-04-03T16:56:34Z) - How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns [51.02752099869218]
大きな言語モデル(LLM)は、非常に異なる一般化の振る舞いを示す。
推論を原子核スキルに分解する新しいベンチマークを導入する。
SFTモデルはよりシャープなドリフトと表面パターンへの過度な適合を示すのに対し、RL型モデルはより安定した行動プロファイルを維持し、推論スキルの崩壊に抵抗することを示す。
論文 参考訳(メタデータ) (2025-12-30T08:16:20Z) - Scaling Behaviors of LLM Reinforcement Learning Post-Training: An Empirical Study in Mathematical Reasoning [42.80470927369973]
我々は、モデルスケール、データボリューム、計算予算がどのように相互作用し、パフォーマンスを形作るかを研究する。
より少ないステップでトレーニングされたより大きなモデルは、より多くのステップでトレーニングされた小さなモデルよりも一貫して優れています。
データ制約されたレシエーションでは、高品質なデータの繰り返し再利用は極めて効果的である。
論文 参考訳(メタデータ) (2025-09-29T17:10:35Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Regularized Evolutionary Population-Based Training [11.624954122221562]
本稿では、DNNの重みのトレーニングと損失関数のメタラーニングをインターリーブするEPBT(Population-Based Training)アルゴリズムを提案する。
EPBTは画像分類ベンチマークを高速かつ正確に学習する。
論文 参考訳(メタデータ) (2020-02-11T06:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。