LoRA 微调的原理和优势是什么？ | AI 面试题

Q: LoRA 微调的原理和优势是什么？

全量微调 7B 模型需更新全部 70 亿参数。LoRA 对选定层（通常 Q/V 投影）：W' = W + BA，其中 B∈R^{d×r}, A∈R^{r×k}, r<<d。优势：可训练参数降 100-1000 倍；checkpoint 只需存 LoRA 权重（MB 级）；推理时可合并进原权重无额外延迟。QLoRA 进一步量化基座为 4bit 再训 LoRA，单卡可微调 65B。

Q: rank r 如何选择？

从 8/16/32 网格搜索验证集；r 越大容量越强但易过拟合、显存越高。常见做法：先小 r 快速试验，按任务难度与数据量上调；注意力层 q/v 往往收益最大。

Q: LoRA 应该加在哪些层？

默认加 attention 的 Wq、Wv（有时 Wk、Wo）；MLP 层可选。秩 r 与目标层按验证集调。全连接输出层有时不加 LoRA 以保稳定性。QLoRA 在 4bit 基座上同样适用。

核心要点

讲清低秩假设：微调时权重更新 ΔW 内在秩很低，可用 W + BA 近似（B∈R^{d×r}, A∈R^{r×k}, r<<d），只训 B、A。
量化收益：可训练参数降 100~1000 倍，checkpoint 只存 LoRA 权重（MB 级），便于多任务切换 adapter。
点出零额外推理延迟：BA 可在部署时合并回 W，推理结构与原模型一致，不增加延迟。
说清与 QLoRA 关系：QLoRA 先把基座量化到 4bit 再在其上训 LoRA，进一步省显存，单卡可微调 65B。

简要回答

LoRA 假设权重更新是低秩的，用两个小矩阵 B×A 近似 ΔW，冻结原模型只训 LoRA 权重，省显存且可多任务切换 adapter。

标准回答

全量微调 7B 模型需更新全部 70 亿参数。LoRA 对选定层（通常 Q/V 投影）：W' = W + BA，其中 B∈R^{d×r}, A∈R^{r×k}, r<<d。优势：可训练参数降 100-1000 倍；checkpoint 只需存 LoRA 权重（MB 级）；推理时可合并进原权重无额外延迟。QLoRA 进一步量化基座为 4bit 再训 LoRA，单卡可微调 65B。

常见误区

⚠️ 常见踩坑

LoRA 省的是「训练显存与存储」，不是基座本身的显存——前向仍要加载完整基座权重，QLoRA 才靠 4bit 量化压基座。另一个误区是把 r 调得越大越好：r 过大不仅显存升高，还可能过拟合，反而不如全量微调的泛化；以及别忘了 LoRA 初始化时 B=0，保证训练起点等于原模型。

追问

追问 1：rank r 如何选择？

从 8/16/32 网格搜索验证集；r 越大容量越强但易过拟合、显存越高。常见做法：先小 r 快速试验，按任务难度与数据量上调；注意力层 q/v 往往收益最大。

追问 2：LoRA 应该加在哪些层？

默认加 attention 的 Wq、Wv（有时 Wk、Wo）；MLP 层可选。秩 r 与目标层按验证集调。全连接输出层有时不加 LoRA 以保稳定性。QLoRA 在 4bit 基座上同样适用。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。

📚 知识库

📖 术语表

📰 AI 资讯

🛠️ AI 工具

vLLM
高吞吐 LLM 推理引擎，77,418+ stars。采用 PagedAttention 显存优化技术，吞吐量比 HuggingFace Transformers 高 24 倍，是生产环境部署大模型推理的首选方案，支持 OpenAI 兼容 API
LangChain
最流行的 LLM 应用开发框架，137K+ stars。提供链式编排、RAG 检索增强生成、Agent 构建等核心能力，覆盖 Python 和 JavaScript 双语言生态，是构建 LLM 应用的基础设施
Ollama
本地运行开源大语言模型的最简方案，支持 Llama、Qwen、DeepSeek 等主流模型，一键安装、自动下载模型、提供 OpenAI 兼容 API，是 AI 开发者本地部署的首选工具

🎯 相关面试题