論文の概要: Repeated post-training is not Self-improving: Diagnosing Scientific Amnesia in Continual DPO Pipelines
- arxiv url: http://arxiv.org/abs/2606.21089v1
- Date: Wed, 17 Jun 2026 18:02:03 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:33:57.385064
- Title: Repeated post-training is not Self-improving: Diagnosing Scientific Amnesia in Continual DPO Pipelines
- Title(参考訳): 反復訓練は自己改善ではない:連続DPOパイプラインにおける科学的アムネシアの診断
- Authors: Jianzhe Lin, Fei Wang, Xiaolin Li, Rajeshkumar Golani, Jubin Chheda,
- Abstract要約: 本稿では,実践者の直観を計測可能な産業問題に変換する。
i)アムネシアの診断スイート,(ii)Qwen2.5-7B-インストラクトランでFSDPシャードDPOチェックポイントをチェーンするプログラムベースのパイプライン,(iii)30のHumanEvalサブベンチマーク,(iv)5つの戦略提案者の比較診断研究。
- 参考スコア(独自算出の注目度): 6.4723124524114475
- License:
- Abstract: Industrial LLM teams often ship behavior updates by repeatedly DPO-training a base model on sequences of related preference-data campaigns. The dominant failure mode in this regime is not always classical catastrophic forgetting: a pipeline may preserve previously learned behaviors while still failing to accumulate reusable methodological knowledge about how to train the next campaign. We call this failure mode scientific amnesia. This paper turns that practitioner intuition into a measurable industrial problem. We contribute: (i) a diagnostic suite for amnesia, (ii) a Program-based pipeline that chains FSDP-sharded DPO checkpoints across Qwen2.5-7B-Instruct runs, (iii) a 30-campaign HumanEval subdomain benchmark, and (iv) a comparative diagnostic study of five strategy proposers: random memory, rule-based scheduling, retrieval-only memory, warm-start Bayesian optimization, and MSCL, a meta-scientific memory and reasoner candidate. Across a single-seed 5-condition * 3-step real-LM chain, 4 of 5 candidates degrade in step-level peak pass@1, including MSCL; only the deliberately conservative rule-based schedule improves. Follow-up pilots qualify rather than overturn this finding: in a heterogeneous chain, MSCL is the only completed candidate that improves, whereas in a small multi-seed homogeneous sweep, retrieval-only has the best mean Delta and no pairwise candidate gap is statistically distinguishable. The contribution is therefore diagnostic, not a claim that MSCL solves the problem: scientific amnesia is observable in a production-like continual-DPO pipeline, and conclusions about interventions depend sharply on chain regime, evaluator design, and seed coverage.
- Abstract(参考訳): 産業用LLMチームは、しばしば、関連する嗜好データキャンペーンのシーケンスに基づいてベースモデルを繰り返しDPOトレーニングすることで、振る舞いの更新を出荷する。
この体制における支配的な失敗モードは、必ずしも古典的な破滅的な忘れ物であるとは限らない。パイプラインは、以前の学習された動作を維持しつつ、次のキャンペーンの訓練方法に関する再利用可能な方法論知識を蓄積することができない。
私たちはこの障害モードを科学的アムネシアと呼んでいる。
本稿では,実践者の直観を計測可能な産業問題に変換する。
コントリビューション:
(i)アムネシアの診断スイート。
(ii)Qwen2.5-7B-Instruct実行中にFSDPシャーディングDPOチェックポイントをチェーンするプログラムベースのパイプライン。
(iii)30のHumanEvalサブドメインベンチマーク、及び
(iv) ランダムメモリ,ルールベーススケジューリング,検索専用メモリ,ウォームスタートベイズ最適化,メタサイエンティフィックメモリおよび推論候補MSCLの5つの戦略提案者の比較検討を行った。
MSCLを含む5つの候補のうち4つは、ステップレベルのピークパス@1で分解され、故意に保守的なルールベースのスケジュールのみが改善される。
フォローアップパイロットは、この発見を覆すよりもむしろ適している: 不均一な連鎖において、MSCLは改善する唯一の完成候補であり、一方、小さな多種同種スイープでは、検索のみがデルタ平均であり、ペアワイズ候補のギャップが統計的に区別できない。
科学的アムネシアは生産ライクな連続DPOパイプラインで観測可能であり、介入に関する結論は連鎖構造、評価器設計、シードカバレッジに大きく依存する。
関連論文リスト
- Joint Training of Multi-Token Prediction in Reinforcement Learning via Optimal Coefficient Calibration [61.46060073417047]
MTP(Multi-Token Prediction)は、事前トレーニングにおいて広く採用されているモジュールである。
RL目標に対するMPPの段差効果は,第1次相関と第2次ペナルティの2つの項に分解できることを示す。
本稿では,ログ確率プロキシを用いて最適係数を無視可能なコストでオンラインで追跡する適応型手法を提案する。
論文 参考訳(メタデータ) (2026-05-27T09:07:06Z) - DISA: Offline Importance Sampling for Distribution-Matching LLM-RL [56.9445657766829]
本稿では、このキャリブレーション問題をRLループの外に移動させるdisAを紹介する。
DISAは提案トラジェクトリをオフラインに描画し、重要サンプリングによってパーティション関数を推定し、結果として発生するパーティション関数の推定を凍結する。
6つの数学と3つのコードベンチマークにまたがる2つのオープンウェイトなバックボーンでは、DisdisAはオンラインに結合した分散マッチングベースラインフローにマッチするか、超えている。
論文 参考訳(メタデータ) (2026-05-17T07:14:44Z) - Epistemic Blinding: An Inference-Time Protocol for Auditing Prior Contamination in LLM-Assisted Analysis [0.0]
エピステミックブラインド(英: epistemic blinding)は、エンティティ識別子を匿名のコードに置き換える単純な推論時プロトコルである。
4種類のがん種を対象とする腫瘍薬剤の優先順位付けでは、盲目化は上位20の予測の16%に変化し、検証対象の同一の回復を保っている。
S&P 500エクイティ・スクリーニングでは、ブランド認識バイアスが5つのランダムな種子のトップ20ランキングの30-40%を占めている。
論文 参考訳(メタデータ) (2026-04-07T16:06:52Z) - PRIME: Prototype-Driven Multimodal Pretraining for Cancer Prognosis with Missing Modalities [86.63247982275396]
PRIMEは、欠落を認識したマルチモーダルな自己教師型事前トレーニングフレームワークである。
部分的に観察されたコホートから頑健で伝達可能な表現を学ぶ。
The Cancer Genome AtlasのPRIMEを32種類の癌に対してラベルフリープレトレーニングで評価した。
論文 参考訳(メタデータ) (2026-04-05T21:14:27Z) - Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation [3.23600523782706]
CRYSTAL (Clear Reasoning via Yielded Steps, Traceability, and Logic)は6,372インスタンスの診断ベンチマークである。
本稿では,意味的類似性マッチングによるステップレベルの精度とリコールをスコアするMatch F1と,乱れた推論連鎖をペナルティ化するOrdered Match F1の2つの相補的指標を提案する。
CPR-CurriculumはGRPOによるMatch F1の32%の改善を実現している。
論文 参考訳(メタデータ) (2026-03-13T15:48:15Z) - Membership Inference Attacks from Causal Principles [24.370456956570873]
我々は、MIA評価を因果推論問題とし、記憶をトレーニングセットにデータポイントを含む因果効果として定義する。
非漸近的整合性保証付きマルチラン・ワンラン・ゼロラン体制の実用的推定器を提案する。
論文 参考訳(メタデータ) (2026-02-02T21:17:28Z) - Enhancing the Outcome Reward-based RL Training of MLLMs with Self-Consistency Sampling [90.87033586963828]
マルチモーダル大言語モデル(MLLM)のステップ・バイ・ステップ推論を洗練させる手段としては,アウトカム・リワード強化学習(RL)が一般的であり,ますます重要になっている。
この問題を修正するために,自己整合サンプリング(SCS)を提案する。
Qwen2.5-VL-7B-インストラクトに基づいて、SCSは、無視できる余分な計算を伴う6つのマルチモーダルベンチマークにおいて、最大7.7ポイントの精度を向上する。
論文 参考訳(メタデータ) (2025-11-13T18:59:57Z) - Sequential Kernelized Independence Testing [77.237958592189]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。
変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。
我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文 参考訳(メタデータ) (2022-03-17T14:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。