标准回答
为什么迁移学习有效
预训练模型在大数据上学到的浅层(边缘/纹理、通用语义)特征具有通用性,下游任务可直接复用,省数据、省算力、收敛更快。
两类核心策略
- 特征提取(Feature Extraction):冻结预训练骨干,仅替换并训练新的输出头。适合目标数据少、源域与目标域相近的情况,过拟合风险低。
- 微调(Fine-tuning):解冻骨干(部分或全部)随新头一起训练。需用比从头训练更小的学习率,避免一上来就冲毁预训练权重;数据较多、域差异较大时更优。
实用技巧
- 渐进/分层解冻:先只训头部,再自顶向下逐层解冻;越深越接近输入的层用越小的学习率(差异化 LR)。
- PEFT:大模型上用 LoRA、Adapter 等只训少量新增参数,显存友好、避免灾难性遗忘。详见 LLM 微调技术全景。
选型直觉:数据越少、越相似 → 偏向冻结;数据越多、域差越大 → 偏向更深的微调。
常见误区
⚠️ 常见踩坑
微调用与预训练相同甚至更大的学习率会破坏已学表征(灾难性遗忘);数据极少时全量微调反而比冻结特征提取更易过拟合。
追问
追问 1:数据量大小如何影响"冻结 vs 微调"的选择?
数据很少:冻结骨干只训头部,最稳。数据中等:解冻顶部几层微调。数据充足:可全量微调,甚至接近从头训练。核心是平衡:可训参数越多,越需要数据支撑以免过拟合。
追问 2:什么是灾难性遗忘,如何缓解?
微调时模型在新任务上更新过猛,覆盖了预训练学到的通用知识,旧能力骤降。缓解:更小学习率、渐进解冻、PEFT(LoRA 冻结原权重)、正则化约束、或混入部分原任务数据联合训练。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
🛠️ AI 工具
- PEFT
🤗 Hugging Face 参数高效微调库,支持 LoRA、QLoRA、AdaLoRA 等 SOTA 方法,大幅降低大模型微调成本。