論文の概要: Phantom transitions in language model fine-tuning
- arxiv url: http://arxiv.org/abs/2606.07559v1
- Date: Mon, 25 May 2026 10:44:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.719739
- Title: Phantom transitions in language model fine-tuning
- Title(参考訳): 言語モデル微調整におけるファントム遷移
- Authors: Vaibhav Prakash, Jayasri Dontabhaktuni,
- Abstract要約: ほぼ同期の競合相手とコンテキスト上で言語モデルを微調整することは、しばしばサイレントに失敗する。
2つのファミリーにまたがる5つの変圧器アーキテクチャと5つのパラメータ範囲にまたがるこの構造について検討する。
位相遷移に類似した順序パラメータにおいて,鋭いカタパルト様ジャンプを観察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning a language model on contexts whose correct completion has a near-synonym competitor often fails silently. The cross-entropy loss decreases monotonically while the correct token never overtakes the competitor in rank. We study this regime across five transformer architectures spanning two families and a fivefold parameter range, on ten hand-selected near-synonym contexts. We instrument these failures with an order parameter combining the predicted distribution and pairwise embedding overlaps. It decomposes additively into a signal, tracking the model's commitment to the correct token over its nearest competitor, and a background drag, set by how the embedding bulk leaks probability into the score. This isolates two failure modes. In kinematic failure the signal stays small. In structural failure the drag actively worsens as fine-tuning proceeds. We observe sharp catapult-like jumps in the order parameter that resemble a phase transition. A central negative result organises the paper. The transitions are phantoms. The spontaneous-symmetry-breaking interpretation is ruled out by direct measurement. Catapult-like jumps still appear under LoRA fine-tuning with the token embedding matrix exactly unchanged during training, where no geometric phase transition is possible. The discontinuity lives entirely in the softmax readout. A small number of dimensionless quantities organise the trajectory across architectures. One is consistent across all five under full fine-tuning. A second sorts architectures into two classes by bulk embedding distribution and predicts LoRA sufficiency. As a blind test, the framework predicts the critical learning rate of a held-out architecture, not used to fit any parameter, to within 2.1% of a subsequent learning-rate sweep. Findings concern the near-synonym mechanism only and should not be extrapolated without recalibration.
- Abstract(参考訳): 正しい完了がほぼ同期の競合を持つコンテキスト上で言語モデルを微調整することは、しばしばサイレントに失敗する。
クロスエントロピー損失は単調に減少するが、正しいトークンは競合相手に勝ることはない。
2つのファミリと5つのパラメータ範囲にまたがる5つのトランスフォーマーアーキテクチャを、手選択された10の近日性文脈に基づいて検討する。
これらの故障を予測分布とペア埋め込みオーバーラップを組み合わせた順序パラメータで測定する。
加算を信号に分解し、最も近い競合相手よりも正しいトークンに対するモデルのコミットメントを追跡する。
これにより、2つの障害モードが分離される。
キネマティック障害では、信号は小さいままである。
構造的故障では、微調整が進むにつれてドラッグが積極的に悪化する。
位相遷移に類似した順序パラメータにおいて,鋭いカタパルト様ジャンプを観察する。
中央の負の結果が論文を整理する。
移行は幻です。
自発的対称性を破る解釈は直接測定によって除外される。
カタパルト様のジャンプはいまだにLoRA微調整の下で現れており、トークン埋め込み行列はトレーニング中に正確に変化せず、幾何学的な位相遷移は不可能である。
この不連続性は完全にソフトマックスの読み出し状態にある。
少数の無次元量によって、建築全体にわたる軌道が編成される。
一つは完全な微調整で5つすべてに一貫している。
2つめは、バルク埋め込み分布によってアーキテクチャを2つのクラスに分類し、LoRAの十分性を予測する。
ブラインドテストとして、このフレームワークは、いかなるパラメータにも適合しないホールトアウトアーキテクチャの臨界学習率を、その後の学習率の2.1%以内に予測する。
発見者は、ほぼ同調のメカニズムのみを懸念し、再校正なしに外挿するべきではない。
関連論文リスト
- When Do Autoregressive Sequence Models Forecast Physical Wavefields? A Controlled Study on Synthetic Seismograms [43.8784307709823]
物理信号の長距離自己回帰予測は誤差蓄積によって制限される。
物理的に構造化されたテストベッドとして,合成3成分地震計を用いて,このようなロールアウトが安定であるかどうかを問う。
論文 参考訳(メタデータ) (2026-06-09T13:46:14Z) - Hacking Generative Perplexity: Why Unconditional Text Evaluation Needs Distributional Metrics [49.443264461057645]
拡散および連続フローベースの言語モデルは、言語モデリングに対する非自己回帰的な主要な代替手段として現れている。
両方のパラダイムの進歩は、生成的複雑度(gen-PPL)によって圧倒的に追跡される。
我々は、この指標は正しくないと主張している。構築により、gen-PPLは、文法性やセマンティックコヒーレンスではなく、スコアARの下でのみ予測可能性を測定する。
論文 参考訳(メタデータ) (2026-06-07T02:35:56Z) - Divergence is Uncertainty: A Closed-Form Posterior Covariance for Flow Matching [8.603039700922809]
フローマッチングは生成モデルの主要なフレームワークとなっているが、サンプルの不確かさの定量化は未解決の問題である。
これらのトレードオフはいずれも必要ありません。
MNISTの実験により、ピクセルごとの不確実性マップが意味論的に意味があることが確認された。
論文 参考訳(メタデータ) (2026-05-01T04:25:00Z) - Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。
ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。
トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文 参考訳(メタデータ) (2026-02-26T11:08:39Z) - MERGETUNE: Continued fine-tuning of vision-language models [77.8627788911249]
微調整視覚言語モデル(VLM)は、しばしば事前訓練された知識を破滅的に忘れてしまう。
ゼロショットモデルに適応した後に事前学習した知識を回復するための新しいパラダイムである連続微調整(CFT)を導入する。
論文 参考訳(メタデータ) (2026-01-15T15:15:53Z) - Convergence Dynamics of Over-Parameterized Score Matching for a Single Gaussian [48.340460104014]
学習モデルの勾配降下について検討し,1つのガウス分布を学習する。
複数の条件下での勾配降下に対する大域収束結果を証明した。
これは、スコアマッチングフレームワークの下で少なくとも3つの成分を持つガウス混合に対する大域収束保証を確立するための最初の試みである。
論文 参考訳(メタデータ) (2025-11-27T03:41:48Z) - The Remarkable Robustness of LLMs: Stages of Inference? [5.346230590800585]
本研究では,Large Language Models (LLM) の構造的介入に対するロバスト性について検討する。
驚くべきことに、モデルは微調整なしでオリジナルのトップ1予測精度の72-95%を維持している。
論文 参考訳(メタデータ) (2024-06-27T17:57:03Z) - The distribution of syntactic dependency distances [0.13812010983144798]
我々は,構文的依存距離の実際の分布のキャラクタリゼーションに寄与する。
ブレークポイント後に確率減衰が変化することを許容する2つの指数的状態を持つ新しいモデルを提案する。
文の長さやアノテーションのスタイルとは無関係に,20言語すべてにおいて,2段階のモデルが最も可能性の高いモデルであることが判明した。
論文 参考訳(メタデータ) (2022-11-26T17:31:25Z) - Generative Text Modeling through Short Run Inference [47.73892773331617]
本研究は、推論のためのショートランダイナミックスを提案し、潜伏変数の以前の分布から変化し、後続分布によって導かれる少数のランゲヴィンダイナミックスステップを実行する。
短絡力学で訓練されたモデルは、強い言語モデルやVAEベースラインと比較して、より正確にデータをモデル化し、後方崩壊の兆候は示さない。
論文 参考訳(メタデータ) (2021-05-27T09:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。