核心要点

  • 讲清低秩假设:微调时权重更新 ΔW 内在秩很低,可用 W + BA 近似(B∈R^{d×r}, A∈R^{r×k}, r<<d),只训 B、A。

  • 量化收益:可训练参数降 100~1000 倍,checkpoint 只存 LoRA 权重(MB 级),便于多任务切换 adapter。

  • 点出零额外推理延迟:BA 可在部署时合并回 W,推理结构与原模型一致,不增加延迟。

  • 说清与 QLoRA 关系:QLoRA 先把基座量化到 4bit 再在其上训 LoRA,进一步省显存,单卡可微调 65B。

简要回答

LoRA 假设权重更新是低秩的,用两个小矩阵 B×A 近似 ΔW,冻结原模型只训 LoRA 权重,省显存且可多任务切换 adapter。

标准回答

全量微调 7B 模型需更新全部 70 亿参数。LoRA 对选定层(通常 Q/V 投影):W' = W + BA,其中 B∈R^{d×r}, A∈R^{r×k}, r<<d。优势:可训练参数降 100-1000 倍;checkpoint 只需存 LoRA 权重(MB 级);推理时可合并进原权重无额外延迟。QLoRA 进一步量化基座为 4bit 再训 LoRA,单卡可微调 65B。

常见误区

⚠️ 常见踩坑

LoRA 省的是「训练显存与存储」,不是基座本身的显存——前向仍要加载完整基座权重,QLoRA 才靠 4bit 量化压基座。另一个误区是把 r 调得越大越好:r 过大不仅显存升高,还可能过拟合,反而不如全量微调的泛化;以及别忘了 LoRA 初始化时 B=0,保证训练起点等于原模型。

追问

追问 1rank r 如何选择?

从 8/16/32 网格搜索验证集;r 越大容量越强但易过拟合、显存越高。常见做法:先小 r 快速试验,按任务难度与数据量上调;注意力层 q/v 往往收益最大。

追问 2LoRA 应该加在哪些层?

默认加 attention 的 Wq、Wv(有时 Wk、Wo);MLP 层可选。秩 r 与目标层按验证集调。全连接输出层有时不加 LoRA 以保稳定性。QLoRA 在 4bit 基座上同样适用。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。

🛠️ AI 工具

  • vLLM

    高吞吐 LLM 推理引擎,77,418+ stars。采用 PagedAttention 显存优化技术,吞吐量比 HuggingFace Transformers 高 24 倍,是生产环境部署大模型推理的首选方案,支持 OpenAI 兼容 API

  • LangChain

    最流行的 LLM 应用开发框架,137K+ stars。提供链式编排、RAG 检索增强生成、Agent 构建等核心能力,覆盖 Python 和 JavaScript 双语言生态,是构建 LLM 应用的基础设施

  • Ollama

    本地运行开源大语言模型的最简方案,支持 Llama、Qwen、DeepSeek 等主流模型,一键安装、自动下载模型、提供 OpenAI 兼容 API,是 AI 开发者本地部署的首选工具