Continual Learning（持续学习）

就是让模型学了新东西不忘旧东西——就像人一样，学了英语还能记着数学。

亦作、亦称：持续学习 · Lifelong Learning · 终身学习 · CL · Incremental Learning · 增量学习

持续学习让 AI 系统像人一样随时间积累知识，而不必每次从零开始重新训练。克服「灾难性遗忘」是这一领域的核心难题，也是通向更通用、更高效 AI 的必经之路。

概述

持续学习旨在让模型在动态数据流中持续进化，而不丢失已积累的知识。

持续学习系统通过多种机制在「可塑性」（学新知识）与「稳定性」（保旧知识）之间寻求平衡。

稳定性-可塑性困境（Stability-Plasticity Dilemma）：过强的稳定性导致模型无法学新内容，过强的可塑性则导致遗忘
任务场景划分：任务增量（Task-IL）、类别增量（Class-IL）、域增量（Domain-IL）三种典型设置，难度依次递增
评估指标：前向迁移（Forward Transfer）、后向迁移（Backward Transfer/BWT）、平均准确率（Average Accuracy）
核心权衡：计算代价、内存占用与遗忘程度三者之间的工程取舍贯穿所有方法

持续学习方法可归纳为三大类，各有适用场景与权衡。

正则化方法：在损失函数中加入约束，惩罚对旧任务重要权重的改动；代表作 EWC（Elastic Weight Consolidation，Kirkpatrick 等，2017）利用 Fisher 信息矩阵量化权重重要性
回放/排练方法（Replay/Rehearsal）：在学习新任务时混入旧任务数据（Experience Replay）或用生成模型（如 VAE、GAN）合成伪旧样本（Pseudo-Rehearsal），是目前效果最稳定的一类方法
架构方法：为每个新任务动态扩展网络模块（Progressive Neural Networks）或使用稀疏掩码（PackNet）将参数空间分区隔离，从结构上避免干扰
混合方法：如 DER（Dark Experience Replay）结合知识蒸馏与回放，兼顾效果与存储效率

持续学习在数据持续变化或隐私敏感的真实场景中价值突出。

持续学习常与迁移学习、在线学习混淆，理解边界有助于正确选型。

正确理解持续学习的局限有助于避免工程落地中的常见错误。

持续学习从认知科学概念逐步演变为深度学习的核心研究方向。

1989 年：McCloskey 与 Cohen 在认知科学研究中首次描述神经网络的「灾难性遗忘」现象
1995 年：Thrun 提出终身机器学习（Lifelong Machine Learning）框架，将持续学习纳入 AI 系统设计
2013–2016 年：深度学习崛起，灾难性遗忘问题在 DNNs 上被广泛复现，引发大量研究关注
2017 年：Kirkpatrick 等（DeepMind）提出 EWC，发表于 PNAS，成为正则化类方法的标志性工作
2017–2019 年：Progressive Neural Networks、PackNet、GEM 等方法相继提出，三大类方法体系逐步成型
2020 年至今：持续学习与大语言模型（LLM）结合，用于知识更新、领域适应及联邦学习场景；Continual Pre-training 成为 LLM 迭代的重要范式

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 3 篇文章，帮助深入理解该术语。

本页内容为本站原创撰写；维基百科链接仅作延伸参考。