論文の概要: Sparsity, Superposition, and Forgetting: A Mechanistic Study of Representation Retention in Continual Learning
- arxiv url: http://arxiv.org/abs/2606.20431v1
- Date: Thu, 18 Jun 2026 16:10:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.975843
- Title: Sparsity, Superposition, and Forgetting: A Mechanistic Study of Representation Retention in Continual Learning
- Title(参考訳): 空間性, 重ね, 予測:連続学習における表現保持の力学的研究
- Authors: Jan Wasilewski, Jędrzej Kozal, Michał Woźniak, Bartosz Krawczyk,
- Abstract要約: 連続学習システムは、しばしば以前取得した知識を忘れる。
我々は, 忘れる機構を観察し, テスト可能にする, 制御されたおもちゃの世界フレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.113106953880908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning (CL) systems often forget previously acquired knowledge, yet the mechanisms driving forgetting remain hard to isolate in practice because real datasets entangle many factors. We present a controlled, toy-world framework that makes these mechanisms observable and testable. Using a synthetic generator-separator pipeline, we define ground-truth latent features, build tasks with tunable sparsity and overlap, and introduce measurable quantities for representation strength and superposition (directional overlap among features). We then study retention dynamics-the temporal change of representation strength by fitting sparse dynamical relations (via SINDy) between retention, superposition, and exposure history. A complementary task-level analysis based on effective rank characterizes how representational capacity is allocated across tasks. Our controlled experiments yield three takeaways. (1) Superposition tends to increase over time with transient dips at task boundaries, suggesting boundary-specific interference rather than steady drift. (2) Higher feature sparsity induces more superposition yet does not inevitably cause forgetting; when representations remain strong, forgetting can be reduced despite overlap. (3) Task-level effective rank grows with sparsity, indicating broader capacity usage under sparse regimes. Together, these results nuance the common intuition that more superposition leads to more forgetting by showing that overlap interacts with representation strength and capacity allocation. Our toy analysis provides falsifiable hypotheses and diagnostic tools for CL.
- Abstract(参考訳): 連続学習(CL)システムは、しばしば以前取得した知識を忘れるが、実際のデータセットが多くの要因を絡み合わせるため、忘れることを促すメカニズムは、実際には分離が難しいままである。
我々は,これらの機構を観察し,テスト可能にする,制御されたおもちゃの世界フレームワークを提案する。
合成ジェネレータ・セパレータパイプラインを用いて, 地中連続潜伏特性を定義し, 調整可能な間隔と重なりを持つタスクを構築し, 表現強度と重なり量(特徴間の方向重なり)について測定可能な量を導入する。
次に、保持、重ね合わせ、露出履歴の間の(SINDyを介して)疎ダイナミックな関係を組み込むことにより、表現強度の時間的変化について検討する。
効果的なランクに基づく補完的なタスクレベル分析は、タスク間での表現能力の割り当てを特徴付ける。
制御された実験では3つのテイクアウトが得られます。
1) 重畳はタスク境界における過渡的なディップによって時間とともに増加する傾向にあり, 定常的なドリフトよりも境界固有の干渉が示唆される。
2) 高い特徴空間は重畳を誘発するが、必然的に忘れを生じさせることはない。
3) タスクレベルの有効ランクは,スパース体制下でのキャパシティ使用量の増加とともに増大する。
これらの結果は、重なり合いが表現強度とキャパシティアロケーションと相互作用することを示すことによって、より多くの重ね合わせがより忘れることにつながる共通の直観をニュアンスさせる。
我々の玩具分析はCLのための偽装仮説と診断ツールを提供する。
関連論文リスト
- How LLMs Follow Instructions: Skillful Coordination, Not a Universal Mechanism [2.5997274006052544]
命令追従は普遍的なメカニズムや構成スキルの展開に依存するかを検討する。
すべてのタスクにわたって訓練された一般的なプローブは、限定的な表現共有を示す、タスク固有のスペシャリストを一貫して過小評価している。
時間的分析では、制約満足度は前世代計画ではなく、世代間動的監視として機能している。
論文 参考訳(メタデータ) (2026-04-07T16:12:52Z) - MIND: From Passive Mimicry to Active Reasoning through Capability-Aware Multi-Perspective CoT Distillation [16.96094045628127]
既存のアプローチでは、学生は一つの黄金の合理性に従うことを制限し、異なる推論経路を個別に扱う。
このミスアライメントは、学生の潜在的推論分布を劣化させ、最適以下のパフォーマンスを引き起こす。
我々は,受動的模倣から能動的認知構築へ移行する能力フィルタリングフレームワーク MIND を提案する。
論文 参考訳(メタデータ) (2026-01-07T09:08:59Z) - Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought [64.43689151961054]
有向グラフ到達性問題に対する簡易な2層変圧器のトレーニング力学を理論的に解析する。
分析の結果,連続的思考を用いたトレーニングでは,まずインデックスマッチングロジットが増加し,その後は軽度な仮定の下で拘束されることがわかった。
論文 参考訳(メタデータ) (2025-09-27T15:23:46Z) - Learning Action-based Representations Using Invariance [18.1941237781348]
我々は,制御に関係のある遠隔状態の特徴を割引する多段階制御可能性指標を学習するアクションビシミュレーション符号化を導入する。
我々は,報酬のない一様ランダムなデータに基づく行動ビシミュレーション事前学習が,複数の環境におけるサンプル効率を向上させることを実証した。
論文 参考訳(メタデータ) (2024-03-25T02:17:54Z) - Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Causal Triplet: An Open Challenge for Intervention-centric Causal
Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。
この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-01-12T17:43:38Z) - Interpretable Time-series Representation Learning With Multi-Level
Disentanglement [56.38489708031278]
Disentangle Time Series (DTS)は、シーケンシャルデータのための新しいDisentanglement Enhanceingフレームワークである。
DTSは時系列の解釈可能な表現として階層的意味概念を生成する。
DTSは、セマンティック概念の解釈性が高く、下流アプリケーションで優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-05-17T22:02:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。