迁移学习与微调有哪些常见策略？

Question 1

迁移学习与微调有哪些常见策略？

Accepted Answer

为什么迁移学习有效 预训练模型在大数据上学到的浅层（边缘/纹理、通用语义）特征具有通用性，下游任务可直接复用，省数据、省算力、收敛更快。 两类核心策略 - 特征提取（Feature Extraction）：冻结预训练骨干，仅替换并训练新的输出头。适合目标数据少、源域与目标域相近的情况，过拟合风险低。 - 微调（Fine-tuning）：解冻骨干（部分或全部）随新头一起训练。需用比从头训练更小的学习率，避免一上来就冲毁预训练权重；数据较多、域差异较大时更优。 实用技巧 - 渐进/分层解冻：先只训头部，再自顶向下逐层解冻；越深越接近输入的层用越小的学习率（差异化 LR）。 - PEFT：大模型上用 LoRA、Adapter 等只训少量新增参数，显存友好、避免灾难性遗忘。详见 LLM 微调技术全景。 选型直觉：数据越少、越相似 → 偏向冻结；数据越多、域差越大 → 偏向更深的微调。

Question 2

数据量大小如何影响"冻结 vs 微调"的选择？

Accepted Answer

数据很少：冻结骨干只训头部，最稳。数据中等：解冻顶部几层微调。数据充足：可全量微调，甚至接近从头训练。核心是平衡：可训参数越多，越需要数据支撑以免过拟合。

Question 3

什么是灾难性遗忘，如何缓解？

Accepted Answer

微调时模型在新任务上更新过猛，覆盖了预训练学到的通用知识，旧能力骤降。缓解：更小学习率、渐进解冻、PEFT（LoRA 冻结原权重）、正则化约束、或混入部分原任务数据联合训练。

迁移学习与微调有哪些常见策略？

核心要点

标准回答

常见误区

追问

延伸学习