核心要点

  • 特征提取:冻结预训练骨干,只训新加的分类头,适合数据少、与源域相近

  • 微调(Fine-tune):解冻部分或全部层一起训,需用更小学习率防破坏已学表征

  • 分层/渐进解冻:先训头部,再自顶向下逐步解冻深层,差异化学习率

  • 大模型场景用 PEFTLoRA 等)只更新少量参数,省显存且不易过拟合

标准回答

为什么迁移学习有效

预训练模型在大数据上学到的浅层(边缘/纹理、通用语义)特征具有通用性,下游任务可直接复用,省数据、省算力、收敛更快。

两类核心策略

  • 特征提取(Feature Extraction):冻结预训练骨干,仅替换并训练新的输出头。适合目标数据少、源域与目标域相近的情况,过拟合风险低。
  • 微调(Fine-tuning):解冻骨干(部分或全部)随新头一起训练。需用比从头训练更小的学习率,避免一上来就冲毁预训练权重;数据较多、域差异较大时更优。

实用技巧

  • 渐进/分层解冻:先只训头部,再自顶向下逐层解冻;越深越接近输入的层用越小的学习率(差异化 LR)。
  • PEFT:大模型上用 LoRA、Adapter 等只训少量新增参数,显存友好、避免灾难性遗忘。详见 LLM 微调技术全景

选型直觉:数据越少、越相似 → 偏向冻结;数据越多、域差越大 → 偏向更深的微调。

常见误区

⚠️ 常见踩坑

微调用与预训练相同甚至更大的学习率会破坏已学表征(灾难性遗忘);数据极少时全量微调反而比冻结特征提取更易过拟合。

追问

追问 1数据量大小如何影响"冻结 vs 微调"的选择?

数据很少:冻结骨干只训头部,最稳。数据中等:解冻顶部几层微调。数据充足:可全量微调,甚至接近从头训练。核心是平衡:可训参数越多,越需要数据支撑以免过拟合。

追问 2什么是灾难性遗忘,如何缓解?

微调时模型在新任务上更新过猛,覆盖了预训练学到的通用知识,旧能力骤降。缓解:更小学习率、渐进解冻、PEFT(LoRA 冻结原权重)、正则化约束、或混入部分原任务数据联合训练。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。