文章摘要
从 Diffusion 模型到 GAN,掌握 AI 图像、音频、视频生成技术。理解 Stable Diffusion 的原理,学会用 ControlNet 精确控制生成结果。
0什么是生成式 AI?
判别式 AI:判断一张图是猫还是狗。
生成式 AI:给你画一只猫。
2022 年 Stable Diffusion 开源,2023 年 DALL·E 和 Midjourney 爆发,2026 年 AI 视频(Sora、Veo)成为现实。生成式 AI 已经从"好玩"变成"好用"。
2学习建议
重点: Diffusion 模型——这是当前最主流、最实用的生成技术。
实战: 用 Stable Diffusion + ControlNet 生成一张你指定构图和姿势的图片。
💡 一句话理解
💡 先学会用 Midjourney 或 Stable Diffusion WebUI,再深入理解背后的数学原理。
架构图示 1
架构图示 2
🎯 相关面试题
巩固本篇知识点,备战 AI 岗位面试。
- 中级概念查看详解 →
生成对抗网络(GAN)与扩散模型有什么区别?
GAN 靠生成器与判别器对抗一步采样,快但训练不稳、易模式坍缩;扩散模型靠多步迭代去噪生成,质量高、多样性好,但采样较慢。
- 高级概念高频查看详解 →
扩散模型(Diffusion Model)的生成原理是什么?
前向过程逐步加噪至纯噪声,反向过程学神经网络逐步去噪,从噪声采样生成数据。
- 高级概念查看详解 →
3D 生成(NeRF / 3D Gaussian Splatting)是什么?
NeRF 用 MLP 拟合体密度与颜色靠体渲染(慢);3D Gaussian Splatting 用显式高斯点光栅化(快、可实时)。
- 高级概念查看详解 →
自回归图像生成(如 VAR)与扩散模型有何区别?
自回归图像生成按 token/尺度序列预测(VAR 用 next-scale prediction),扩散用迭代去噪,二者路线不同。