論文の概要: Can Scale Save Us From Plasticity Loss in Large Language Models?
- arxiv url: http://arxiv.org/abs/2606.24752v1
- Date: Tue, 23 Jun 2026 16:14:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.048876
- Title: Can Scale Save Us From Plasticity Loss in Large Language Models?
- Title(参考訳): 大規模言語モデルで塑性損失からスケールを救えるか?
- Authors: J. Fernando Hernandez-Garcia, Tomás Figliolia, Beren Millidge,
- Abstract要約: 多言語連続学習問題に基づいて学習したGPT型トランスフォーマーモデルの可塑性損失について検討した。
塑性損失の開始は、予測可能なスケーリング法則に従っており、モデルサイズとサブリニアに成長する。
- 参考スコア(独自算出の注目度): 7.848130688986076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The loss of plasticity - the ability of a network to learn new information after having already learned older information - is a fundamental challenge in creating artificial neural networks capable of continual learning. Although this phenomenon has been known for decades, it has mostly been studied in older, relatively small architectures and rarely in natural-language domains. To determine whether loss of plasticity remains a problem in the modern transformer-based LLM paradigm, we study plasticity loss in GPT-style Transformer models trained on a multilingual continual learning problem. Consistent with prior work, we find evidence of plasticity loss across models ranging from 5M to 314M non-embedding parameters, as measured by deterioration on a held-out Vietnamese probing task. We further find that the onset of plasticity loss follows a predictable scaling law, growing sublinearly with model size. These results suggest that larger models may delay the measurable effects of plasticity loss, but that increasing parameter count alone is likely to be insufficient to completely prevent it. We also find evidence of plasticity loss under stationary multilingual training, challenging the view that the phenomenon is exclusive to continual learning with abrupt task changes. Overall, our results suggest that even large Transformer language models trained on natural-language will eventually lose the ability to efficiently adapt to new data after sufficiently long training, in both continual and stationary settings.
- Abstract(参考訳): 可塑性の喪失 - すでに古い情報を学習した後、ネットワークが新しい情報を学ぶ能力 - は、継続的な学習が可能な人工ニューラルネットワークを作成する上で、根本的な課題である。
この現象は何十年にもわたって知られてきたが、その多くは古い比較的小さな建築で研究され、自然言語の領域ではめったに研究されていない。
多言語連続学習問題に基づいて学習したGPT型トランスフォーマーモデルにおいて,可塑性の損失が問題となるかどうかを考察する。
5Mから314Mの非埋め込みパラメータのモデル間での可塑性損失の証拠は,ベトナムの検定作業の劣化によって測定された。
さらに, 塑性損失の開始は, 予測可能なスケーリング法則に従い, モデルサイズに比例して増加することが判明した。
これらの結果から, より大きなモデルでは可塑性損失が測定可能な影響を遅らせる可能性があるが, パラメータ数の増加だけでは完全に防止できない可能性が示唆された。
また,定常多言語学習における可塑性損失の証拠を見出した。
以上の結果から,自然言語で学習した大きなTransformer言語モデルであっても,十分な長期トレーニングを経て,連続的および定常的な設定において,新たなデータに効率的に適応する能力を失うことが示唆された。
関連論文リスト
- Vision Transformers that Never Stop Learning [13.804234595369058]
視覚変換器(ViT)の可塑性損失に関する系統的研究について述べる。
分析の結果,重み付きアテンションモジュールは可塑性損失を増大させる不安定性を示し,フィードフォワードネットワークモジュールはより顕著に劣化することがわかった。
本稿では,アテンションモジュールのオンライン曲率推定値を用いて方向を適応的に変換することで,可塑性を保った幾何学的認識モデルであるARROWを提案する。
論文 参考訳(メタデータ) (2026-03-08T20:07:43Z) - Plasticity Loss in Deep Reinforcement Learning: A Survey [15.525552360867367]
塑性は深層強化学習(RL)エージェントにとって不可欠である。
可塑性が失われると、データ分布の変化を考慮に入れないため、エージェントのパフォーマンスが低下する。
可塑性の喪失は、トレーニング不安定性、スケール失敗、過大評価バイアス、探検不足など、深いRLを悩ませる多くの問題と結びつくことができる。
論文 参考訳(メタデータ) (2024-11-07T16:13:54Z) - Disentangling the Causes of Plasticity Loss in Neural Networks [55.23250269007988]
可塑性の喪失は複数の独立したメカニズムに分解できることを示す。
種々の非定常学習タスクにおいて, 層正規化と重み劣化の組み合わせは, 可塑性維持に極めて有効であることを示す。
論文 参考訳(メタデータ) (2024-02-29T00:02:33Z) - Maintaining Plasticity in Deep Continual Learning [12.27972591521307]
連続学習のためのデータセットをタスクのシーケンスとして利用して,可塑性損失の実証を行う。
ImageNetでは、バイナリ分類のパフォーマンスは、初期タスクで89%の精度から77%に低下した。
新しいアルゴリズム -- 連続的なバックプロパゲーション -- は、従来のバックプロパゲーションを変更して、各例の後で、あまり使われていないユニットを再使用する。
論文 参考訳(メタデータ) (2023-06-23T23:19:21Z) - The Curse of Recursion: Training on Generated Data Makes Models Forget [70.02793975243212]
大規模言語モデル(LLM)が存続し、オンラインテキストと画像のエコシステム全体に劇的な変化をもたらすだろう。
トレーニングにおけるモデル生成コンテンツの使用は、元のコンテンツ分布の尾部が消える結果のモデルに不可逆的な欠陥を引き起こす。
論文 参考訳(メタデータ) (2023-05-27T15:10:41Z) - Meta-Learning Online Adaptation of Language Models [88.8947656843812]
大規模言語モデルは、そのパラメータにおける驚くほど広い世界の知識を符号化する。
しかし、静的言語モデルの知識は時代遅れになり、モデルの効果的な「シェルフライフ」が制限される。
論文 参考訳(メタデータ) (2023-05-24T11:56:20Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Entropy-based Stability-Plasticity for Lifelong Learning [17.40355682488805]
本稿では,ニューラルネットワークの安定性・塑性ジレンマに対処するために,エントロピーに基づく安定塑性(ESP)を提案する。
当社のアプローチでは,塑性係数を用いて各モデル層をどの程度変更すべきかを動的に決定できる。
場合によっては、トレーニング中にレイヤを凍結することで、トレーニングのスピードアップにつながる場合もある。
論文 参考訳(メタデータ) (2022-04-18T22:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。