論文の概要: Theoretical Foundations of Continual Learning via Drift-Plus-Penalty
- arxiv url: http://arxiv.org/abs/2606.08452v1
- Date: Sun, 07 Jun 2026 04:51:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.115211
- Title: Theoretical Foundations of Continual Learning via Drift-Plus-Penalty
- Title(参考訳): ドリフト・プラス・ペナルティによる連続学習の理論的基礎
- Authors: Nazreen Shah, Govinda Arya, Bharath B. N., Ranjitha Prasad,
- Abstract要約: 継続的な学習(CL)は、破滅的な忘れを緩和しながら新しいタスクを取り入れることでこの課題に対処する。
我々は,忘れることの進化を明示的に制御する制御理論的な視点をCLに導入する。
我々は,Drift-PlusPenalty原則を最適化した継続的フレームワークであるCentinual Learning with Drift-PlusPenalty(COLD)を提案する。
- 参考スコア(独自算出の注目度): 6.614755043607776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many real-world settings, data streams are nonstationary and arrive sequentially, requiring learning systems to adapt continuously without retraining from scratch. Continual learning (CL) addresses this challenge by incorporating new tasks while mitigating catastrophic forgetting, where learning new information degrades performance on previously acquired knowledge. We introduce a control-theoretic perspective on CL that explicitly regulates the evolution of forgetting, framing adaptation as a controlled process subject to long-term stability constraints. We focus on replay-based CL, where a finite memory buffer stores representative samples from prior tasks. We propose COntinual Learning with Drift-Plus-Penalty (COLD), a continual learning framework based on the Drift-Plus-Penalty (DPP) principle from stochastic optimization. To facilitate analysis, we also consider an oracle variant, COLD-ORACLE, as a reference benchmark. At each task, both methods minimize the current task loss while maintaining a virtual queue that tracks deviations from long-term stability on previously learned tasks, capturing the stability-plasticity trade-off as a regulated dynamical process. We establish stability and convergence guarantees that characterize this trade-off through a tunable control parameter. Experiments on standard benchmarks demonstrate that COLD consistently outperforms a broad range of state-of-the-art CL methods while providing competitive and controllable forgetting behavior through explicit regulation of stability and plasticity.
- Abstract(参考訳): 多くの実世界の環境では、データストリームは非定常的であり、逐次到着するので、学習システムはスクラッチから再トレーニングすることなく継続的に適応する必要がある。
連続学習(CL)は、破滅的な忘れを緩和しながら、新しいタスクを取り入れることで、この課題に対処する。
本稿では,長期安定制約を受ける制御プロセスとして,忘れ,フレーミング適応の進化を明示的に規制するCLの制御理論的視点を紹介する。
メモリバッファが先行タスクから代表サンプルを格納するリプレイベースのCLに着目した。
確率的最適化からDPP(Drift-Plus-Penalty)の原理に基づく連続的な学習フレームワークであるCOLD(Centinual Learning with Drift-Plus-Penalty)を提案する。
分析を容易にするため, オラクル変種である COLD-ORACLE を基準ベンチマークとして検討した。
各タスクにおいて、どちらの手法も現在のタスク損失を最小限に抑えつつ、以前に学習したタスクの長期的な安定性から逸脱を追跡する仮想キューを維持し、安定塑性トレードオフを規制された動的プロセスとして捉えている。
我々は、調整可能な制御パラメータを通じて、このトレードオフを特徴付ける安定性と収束性を確立する。
標準ベンチマークの実験では、COLDは安定性と可塑性の明示的な規制により、競争的で制御可能な忘れ行動を提供しながら、最先端のCL手法の幅広い性能を一貫して上回っていることが示されている。
関連論文リスト
- Adapt before Continual Learning [9.477667054965782]
コアCLプロセス(ACL)の前にPTMを適応させることは、新しいタスクを学習する前にプラグアンドプレイ適応フェーズを導入する新しいフレームワークである。
ACLはベンチマークと統合メソッド間でCL性能を大幅に改善する。
論文 参考訳(メタデータ) (2025-06-04T13:46:33Z) - Online Curvature-Aware Replay: Leveraging $\mathbf{2^{nd}}$ Order Information for Online Continual Learning [2.0165668334347187]
我々は、リプレイデータに対する明示的なKL分割制約により、リプレイベースのオンライン共同最適化を定式化する。
非IDデータに対する連続的な2次最適化にFIMの推定を適用する方法について述べる。
OCARは3つの異なるベンチマークでトレーニングプロセスを通して高い平均精度を達成するために、連続的なメトリクスで最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-02-03T22:31:36Z) - Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Temporal-Difference Variational Continual Learning [77.92320830700797]
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
提案手法は, 変分CL法より優れたカタストロフィックフォーミングを効果的に緩和する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Keep Moving: identifying task-relevant subspaces to maximise plasticity for newly learned tasks [0.22499166814992438]
継続学習アルゴリズムは、事前情報を保持しながら、新しい知識を獲得しようとする。
これらのアルゴリズムは、しばしば安定性を強調し、新しいタスクを学習する際のネットワーク更新を制限する。
しかし、すべては有害か?
本稿では,ニューラルネットワークの活性化空間を2つの部分空間に分解できることを提案する。
論文 参考訳(メタデータ) (2023-10-07T08:54:43Z) - Recurrent Neural Network Controllers Synthesis with Stability Guarantees
for Partially Observed Systems [6.234005265019845]
本稿では、不確実な部分観測システムのための動的制御系として、リカレントニューラルネットワーク(RNN)の重要なクラスを考える。
本稿では、再パラメータ化空間における安定性条件を反復的に強制する計画的ポリシー勾配法を提案する。
数値実験により,本手法は,より少ないサンプルを用いて制御器の安定化を学習し,政策勾配よりも高い最終性能を達成することを示す。
論文 参考訳(メタデータ) (2021-09-08T18:21:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。