生成式 AI 学习导览

💡

文章摘要

从 Diffusion 模型到 GAN，掌握 AI 图像、音频、视频生成技术。理解 Stable Diffusion 的原理，学会用 ControlNet 精确控制生成结果。

0什么是生成式 AI？

判别式 AI：判断一张图是猫还是狗。
生成式 AI：给你画一只猫。

2022 年 Stable Diffusion 开源，2023 年 DALL·E 和 Midjourney 爆发，2026 年 AI 视频（Sora、Veo）成为现实。生成式 AI 已经从"好玩"变成"好用"。

1技术全景

生成式 AI 的技术全景：

VAE（变分自编码器）— 编码、隐空间、解码

GAN（生成对抗网络）— 生成器 vs 判别器

Diffusion Model — 加噪、去噪、生成

ControlNet — 精确控制生成结果

2学习建议

重点： Diffusion 模型——这是当前最主流、最实用的生成技术。

实战：用 Stable Diffusion + ControlNet 生成一张你指定构图和姿势的图片。

💡 一句话理解

💡 先学会用 Midjourney 或 Stable Diffusion WebUI，再深入理解背后的数学原理。

架构图示 1

图表加载中…

架构图示 2

图表加载中…

🎯 相关面试题

巩固本篇知识点，备战 AI 岗位面试。

浏览全部面试题 →

📚 相关文章推荐

🎨进阶

VAE：变分自编码器

从概率建模到潜空间采样，理解变分自编码器的生成原理

🎨高级

扩散模型文本生成：从 DDPM 到 Diffusion-LM 的技术原理与应用

扩散模型正在从图像生成杀入文本生成赛道。系统掌握扩散模型在 NLP 中的原理、架构差异、与 Transformer 的对比分析，以及 2026 年扩散文本生成的最新进展

🎨高级

Diffusion 模型（一）：原理与数学基础

从加噪到去噪，理解扩散模型如何一步步生成高质量图像

继续你的 AI 学习之旅

浏览更多 AI 知识库文章，或者探索 GitHub 上的优质 AI 项目

📚 浏览知识库 🛠️ 探索 AI 工具