論文の概要: KeepLoRA++: Continual Learning with Layer-Scaled Residual Gradient Adaptation
- arxiv url: http://arxiv.org/abs/2606.16256v1
- Date: Mon, 15 Jun 2026 05:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.106097
- Title: KeepLoRA++: Continual Learning with Layer-Scaled Residual Gradient Adaptation
- Title(参考訳): KeepLoRA++: 階層規模の残留勾配適応による継続的学習
- Authors: Mao-Lin Luo, Yi-Lin Zhang, Zi-Hao Zhou, Yankun Hong, Xialiang Tong, Mingxuan Yuan, Tong Wei, Min-Ling Zhang,
- Abstract要約: 事前学習された視覚言語モデルの継続的な学習には、3つの競合する目標のバランスが必要である。
本稿では,2次元知識保持機構を統一したKeepLoRA++を提案する。
- 参考スコア(独自算出の注目度): 67.23448686598414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning for pre-trained vision-language models requires balancing three competing objectives: retaining pre-trained knowledge, preserving knowledge from a sequence of learned tasks, and maintaining the plasticity to acquire new knowledge. This paper presents KeepLoRA++, balancing these objectives through a unified dual-dimensional knowledge retention mechanism. We analyze knowledge distribution of Transformer architecture from both inter-layer and intra-layer perspectives. The inter-layer perspective examines how retention is distributed across layers, while the intra-layer perspective focuses on the parameter space within each layer. Our analysis reveals a structural property: general transferable knowledge is mainly encoded in the shallow layers and the principal subspace of the parameters, while task-specific adaptations are localized in the deep layers and the residual subspace. Motivated by this insight, KeepLoRA++ introduces a layer-scaled residual gradient adaptation method. New tasks are learned by restricting LoRA parameter updates to the residual subspace, combined with a shallow-to-deep layer scaling, to prevent interference with previously acquired capabilities. Specifically, the gradient of a new task is projected onto a subspace orthogonal to both the principal subspace of the pre-trained model and the dominant directions of previous task features, while simultaneously assigning smaller update magnitudes to shallow layers and larger ones to deeper layers. Our theoretical analysis and empirical evaluations confirm that KeepLoRA++ successfully balances these three competing objectives, consistently outperforming representative baselines across image classification, visual question answering, and video understanding tasks.
- Abstract(参考訳): 事前学習された視覚言語モデルの継続的な学習には、事前学習された知識の保持、学習された一連のタスクからの知識の保存、新しい知識を得るための可塑性の維持という3つの競合する目標のバランスが必要である。
本稿では,2次元知識保持機構を統一したKeepLoRA++を提案する。
トランスフォーマーアーキテクチャの知識分布を層間および層間の両方の観点から解析する。
層間パースペクティブは層間の保持をどのように分散するかを検証し、層間パースペクティブは各層内のパラメータ空間に焦点を当てる。
一般的な伝達可能な知識は主に浅層とパラメータの主部分空間に符号化され、タスク固有の適応は深層と残留部分空間に局所化されている。
この知見に触発されて、KeepLoRA++は階層スケールの残留勾配適応法を導入した。
新しいタスクは、残余部分空間へのLoRAパラメータの更新を制限することで学習される。
特に、新しいタスクの勾配は、事前訓練されたモデルの主部分空間と以前のタスク特徴の主部分空間の両方に直交する部分空間に投影され、同時に、より浅い層と大きな層に小さな更新桁を割り当てる。
私たちの理論的分析と経験的評価により、KeepLoRA++はこれらの競合する3つの目標のバランスを保ち、画像分類、視覚的質問応答、ビデオ理解タスクにおいて、一貫して代表的ベースラインを上回ります。
関連論文リスト
- Hierarchical Dual-Subspace Decoupling for Continual Learning in Vision-Language Models [63.169731309799324]
クラスインクリメンタルラーニングは、学習前の情報を保存しながら、新たな知識を継続的に獲得することを目的としており、破滅的な忘れを軽減している。
視覚言語モデルにおける連続学習のための階層型デュアルサブスペースデカップリングフレームワークであるHDSDを提案する。
具体的には、パラメータ空間を一般およびタスク固有の部分空間に明示的に分解する軽量な特徴変調モジュール(FMM)を導入する。
論文 参考訳(メタデータ) (2026-05-08T09:42:05Z) - DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles [8.564506908883667]
textbfDeAR はtextbfDecomposing textbfAttention head textbfRoles によって微細な VLM 適応を実現するフレームワークである。
DeARはタスク適応と一般化のバランスを保ち、様々なタスクで過去の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-03-01T13:52:51Z) - Task-Driven Subspace Decomposition for Knowledge Sharing and Isolation in LoRA-based Continual Learning [82.30237756328596]
Low-Rank Adaptation (LoRA) は継続学習 (CL) において注目を集めている。
いくつかのLoRAベースのCLメソッドは、更新スペースを分離することでタスク間の干渉を減らす。
LoDAは、一般的なタスク固有のLoRAサブスペースを構築するために、タスク駆動の分解を実行する。
論文 参考訳(メタデータ) (2026-02-27T02:31:00Z) - KeepLoRA: Continual Learning with Residual Gradient Adaptation [70.16296045857659]
事前学習された視覚言語モデルの継続的な学習には、3つの競合する目標のバランスが必要である。
本稿では、これらの目的を効果的にバランスさせるために、KeepLoRAと呼ばれるシンプルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2026-01-27T14:38:57Z) - LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - An Adaptive and Stability-Promoting Layerwise Training Approach for Sparse Deep Neural Network Architecture [0.0]
この研究は、与えられたトレーニングデータセットに対してうまく一般化するディープニューラルネットワーク(DNN)アーキテクチャを開発するための2段階適応フレームワークを提案する。
第1段階では、新しいレイヤを毎回追加し、前のレイヤでパラメータを凍結することで独立してトレーニングする、レイヤワイズトレーニングアプローチが採用されている。
本稿では, 学習アルゴリズムの望ましい特性として, エプシロン・デルタ安定促進の概念を導入し, 多様体正規化を用いることで, エプシロン・デルタ安定促進アルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-13T09:51:16Z) - Gradient Projection Memory for Continual Learning [5.43185002439223]
過去のタスクを忘れずに継続的に学習する能力は、人工学習システムにとって望ましい属性です。
ニューラルネットワークは,従来のタスクにとって重要と考えられる勾配部分空間に直交方向の勾配を向けることで,新しいタスクを学習する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:31:29Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。