1为什么扩散模型可以生成文本
扩散模型(Diffusion Model)最初是为图像生成设计的——通过逐步添加噪声再逐步去噪的过程,生成逼真的图像。但 2026 年,扩散模型开始系统性地进入文本生成领域,引发了「扩散 vs Transformer」的架构之争。
扩散模型能用于文本生成的根本原因在于:生成任务的本质是概率分布采样,而非某种特定架构的专利。无论是图像中的像素分布,还是文本中的 Token 分布,扩散模型的核心机制——前向加噪 + 反向去噪——都可以泛化到离散序列空间。
扩散模型用于文本生成有三大理论优势:
第一,全局建模能力。自回归模型(如 GPT 系列)逐 Token 生成,每一步只能看到已经生成的前缀,无法回头修改。扩散模型在去噪过程中同时考虑整个序列的所有位置,具有全局视野。这意味着扩散模型可以更好地捕捉长距离依赖——比如文章开头的主题设定需要与结尾的总结保持一致,扩散模型在每次去噪步骤中都能同时看到这两个位置。
第二,并行生成潜力。自回归模型的生成速度受限于序列长度——100 个 Token 需要 100 次前向传播。扩散模型虽然也需要多个去噪步骤,但每个步骤可以并行处理所有 Token,在长文本场景下具有显著的加速潜力。
第三,可控性与可编辑性。扩散模型的去噪过程天然支持条件引导——你可以在去噪的中间步骤注入新的约束条件(如改变情感极性、调整风格),而不需要从头重新生成。这种「半路修改」的能力对于交互式文本编辑至关重要。
2026 年 5 月,吴恩达(Andrew Ng)和 Andrej Karpathy 共同投资了一家专注于扩散模型文本生成的初创公司,这标志着顶级 AI 研究者对这一技术路线的认可。在此之前,扩散模型文本生成更多是学术探索,而这次投资事件表明扩散文本生成正在进入产业化的前夜。
理解扩散文本生成的第一步是跳出「扩散=图像」的思维定式。扩散模型的核心是加噪-去噪的数学框架,这个框架与数据类型(连续像素或离散 Token)无关。
扩散文本生成面临一个根本性挑战:Token 是离散变量,而扩散模型的数学推导依赖于连续空间。如何将连续的噪声过程适配到离散的 Token 空间,是扩散文本生成最大的技术难点。
2扩散模型基础:从 DDPM 到连续扩散
要理解扩散模型如何应用于文本生成,首先需要回顾扩散模型的基本原理。
扩散模型的核心思想来源于非平衡热力学:一个清晰的信号(如一张图片)通过逐步添加高斯噪声,最终变成纯噪声;学习如何逆转这个过程,就能从纯噪声中恢复出有意义的信号。
前向过程(Forward Process):从干净数据 x_0 开始,在 T 个时间步中逐步添加噪声。每一步的加噪公式为 x_t = sqrt(alpha_t) * x_{t-1} + sqrt(1 - alpha_t) * epsilon,其中 epsilon 是标准高斯噪声。经过 T 步后,x_T 近似于纯高斯噪声。关键性质是:给定 x_0,可以一步计算任意 t 时刻的 x_t,不需要逐步迭代。
反向过程(Reverse Process):学习一个神经网络(通常是 U-Net 或 Transformer),预测每一步的噪声或原始信号。从纯噪声 x_T 开始,逐步去噪,最终得到 x_0。训练目标是让网络预测的噪声与实际添加的噪声之间的差异最小化。
DDPM(Denoising Diffusion Probabilistic Models) 是最经典的扩散模型实现。它使用 U-Net 架构,通过残差连接和跳跃连接在不同尺度上传递信息。DDPM 的训练损失是简单的均方误差(MSE)——预测噪声与真实噪声的差异。
扩散模型在图像领域取得成功的关键因素包括:无需对抗训练(GAN 的训练不稳定问题不存在);生成质量随着训练时间单调提升;通过 Classifier-Free Guidance 实现高质量的条件生成。
连续扩散(Continuous Diffusion) 是 DDPM 的数学推广,将离散时间步推广为连续时间微分方程(SDE/ODE 框架)。这使得扩散过程的理论分析更加严谨,也为加速采样提供了理论基础——通过 ODE 求解器可以用更少的步骤完成去噪。
从连续到离散的挑战:图像的像素值是连续的(0-255 的浮点数),而文本的 Token 是离散的(词汇表中的索引)。将连续扩散应用到文本需要解决离散化问题——如何在离散空间中定义「加噪」和「去噪」?
扩散模型的训练比 GAN 简单得多——只有一个 MSE 损失函数,没有对抗训练的不稳定性。这是扩散模型在学术界快速流行的核心原因。
扩散模型的采样速度慢是其主要缺点。标准的 DDPM 需要 1000 步去噪过程,虽然后续的 DDIM 等技术将其减少到 50 步,但仍然比自回归模型的单次前向传播慢得多。
3离散扩散:从连续空间到 Token 空间
将扩散模型应用于文本生成的核心挑战是离散化。连续扩散模型的数学框架建立在连续概率密度函数之上,而文本 Token 是离散变量——你无法在词汇表中添加「0.5 个 Token」。
研究者们提出了多种方案来解决这个问题,以下是三种主流方法:
方法一:连续嵌入空间扩散。这是最直接的方案——将 Token 映射到连续的词嵌入空间(Embedding Space),在嵌入空间中执行连续的扩散过程,去噪后再将嵌入向量映射回最近的 Token。这种方法的优点是数学上最简洁,可以直接复用图像扩散模型的全部理论;缺点是嵌入空间到 Token 的映射可能产生语义不一致的结果——嵌入空间中两个邻近点可能对应完全不同的语义。
方法二:离散扩散(Discrete Diffusion)。这类方法直接在离散空间中定义扩散过程。核心思想是用状态转移矩阵代替高斯噪声——每一步以一定概率将当前 Token 替换为其他 Token(或一个特殊的 [MASK] Token)。反向过程学习预测原始 Token 的条件概率分布。D3PM(Discrete Denoising Diffusion Probabilistic Models)是这一方向的代表性工作。
方法三:吸收扩散(Absorbing Diffusion)。这是一种特殊的离散扩散策略——前向过程中,Token 以一定概率被「吸收」为 [MASK] 标记,而不是被替换为随机 Token。反向过程学习在给定部分被掩码的序列中,恢复被掩码的 Token。这种方法在文本生成中特别有效,因为它自然地与掩码语言模型(如 BERT)建立了联系。
三种方法各有优劣:连续嵌入空间扩散实现最简单但语义一致性最差;离散扩散数学上最严谨但训练复杂度最高;吸收扩散在实践中表现最好,但需要特殊的模型架构。
2026 年的趋势是吸收扩散方法的崛起。Diffusion-LM 和 SEDD(Score Entropy for Discrete Diffusion)等模型在这一方向取得了显著进展,在文本生成的质量指标上开始逼近自回归模型。
| 方法 | 数学空间 | 实现复杂度 | 语义一致性 | 代表模型 |
|---|---|---|---|---|
连续嵌入空间扩散 | 连续 | 低 | 中 | Diffusion-LM (早期版本) |
离散扩散 (D3PM) | 离散 | 高 | 高 | D3PM, VQ-Diffusion |
吸收扩散 | 离散 | 中 | 高 | SEDD, AR-Diffusion |
如果你刚开始研究扩散文本生成,建议从吸收扩散方法入手——它在实现复杂度和生成质量之间取得了最佳平衡,而且与 BERT 等预训练模型的思路高度一致,容易理解。
离散扩散模型的理论分析比连续扩散复杂得多。在复现论文结果时,要特别注意离散状态空间的大小(词汇表大小)对训练稳定性和收敛速度的影响——词汇表越大,训练越困难。
4Diffusion-LM 架构详解
Diffusion-LM 是扩散模型应用于文本生成的标志性工作。它的核心设计将扩散模型的全局建模能力与语言模型的文本生成能力结合在一起。
Diffusion-LM 的架构可以分为三个主要组件:
噪声调度器(Noise Scheduler):控制前向过程中噪声的添加速率。噪声调度策略直接影响生成质量——加噪太快会导致信息快速丢失,加噪太慢会导致训练效率低下。Diffusion-LM 采用了余弦调度(Cosine Schedule),在早期步骤中缓慢加噪,在中后期加速加噪,使得模型能够在不同噪声水平下都学习到有用的去噪能力。
Transformer 去噪网络:这是 Diffusion-LM 的核心。与图像扩散模型使用 U-Net 不同,Diffusion-LM 使用 Transformer 作为去噪网络。原因很直接:Transformer 本身就是为序列数据设计的,其自注意力机制能够有效地捕捉 Token 之间的长距离依赖。去噪 Transformer 的输入是加噪后的 Token 嵌入序列 + 时间步编码 + 条件信息(如文本提示),输出是预测的去噪后嵌入向量。
可控性模块(Controllability Module):这是 Diffusion-LM 区别于自回归模型的关键特性。在去噪过程的任何步骤,都可以注入新的条件信号——例如,在去噪到一半时改变情感极性,或者插入特定的关键词。这种中途干预能力是自回归模型无法实现的,因为自回归模型一旦开始生成,就不能回头修改已生成的内容。
训练过程:Diffusion-LM 的训练目标是预测加噪前的嵌入向量。具体来说,给定干净序列的嵌入表示 x_0,随机采样时间步 t,计算加噪后的 x_t,然后训练 Transformer 从 x_t 和 t 预测 x_0。损失函数是嵌入空间中的均方误差。
生成过程:从纯噪声(随机初始化的嵌入向量)开始,通过 Transformer 逐步去噪,共执行 T 步。每一步的输出经过 Embedding-to-Token 的映射(通常选择嵌入空间中最近的 Token),得到最终的文本序列。
import torch
import torch.nn as nn
import math
class DiffusionLM(nn.Module):
"""简化版 Diffusion-LM 模型"""
def __init__(self, vocab_size: int, embed_dim: int = 512,
num_layers: int = 12, num_heads: int = 8,
max_seq_len: int = 512, num_timesteps: int = 1000):
super().__init__()
self.vocab_size = vocab_size
self.embed_dim = embed_dim
self.num_timesteps = num_timesteps
# Token 嵌入层
self.token_embed = nn.Embedding(vocab_size, embed_dim)
self.position_embed = nn.Embedding(max_seq_len, embed_dim)
# 时间步嵌入
self.time_embed = nn.Sequential(
nn.Linear(1, embed_dim),
nn.SiLU(),
nn.Linear(embed_dim, embed_dim),
)
# Transformer 去噪网络
decoder_layer = nn.TransformerDecoderLayer(
d_model=embed_dim,
nhead=num_heads,
dim_feedforward=embed_dim * 4,
activation='gelu',
batch_first=True,
)
self.denoiser = nn.TransformerDecoder(
decoder_layer, num_layers=num_layers
)
# 输出投影层(嵌入 → Token 概率)
self.output_proj = nn.Linear(embed_dim, vocab_size)
# 余弦噪声调度
self._build_cosine_schedule()
def _build_cosine_schedule(self):
"""构建余弦噪声调度"""
steps = self.num_timesteps + 1
x = torch.linspace(0, steps, steps)
alphas_cumprod = torch.cos(
(x / steps + 0.008) / 1.008 * math.pi / 2
) ** 2
alphas_cumprod = alphas_cumprod / alphas_cumprod[0]
self.register_buffer('alphas_cumprod', alphas_cumprod[1:])
def forward(self, token_ids, t):
"""前向传播:预测去噪后的 Token"""
B, L = token_ids.shape
# 嵌入
x = self.token_embed(token_ids) + self.position_embed(
torch.arange(L, device=token_ids.device)
)
# 时间步嵌入
t_emb = self.time_embed(t.float().unsqueeze(-1))
x = x + t_emb.unsqueeze(1)
# Transformer 去噪
out = self.denoiser(x)
# 输出 Token 概率
logits = self.output_proj(out)
return logitsDiffusion-LM 使用 Transformer 而非 U-Net 作为去噪网络是文本与图像的关键区别之一。Transformer 的自注意力机制天然适合捕捉 Token 之间的长距离依赖,这是文本生成的核心需求。
Diffusion-LM 的生成质量高度依赖于噪声调度的设计。余弦调度在实践中表现良好,但对于特定任务(如代码生成),可能需要调整调度策略以平衡生成速度和质量。
5扩散文本生成 vs 自回归生成:深度对比
扩散模型和自回归模型是文本生成的两种根本不同的范式。理解它们的差异,需要从生成机制、效率、质量和可控性四个维度进行系统对比。
生成机制的本质差异:自回归模型采用「从左到右」的串行生成——先生成第一个 Token,然后基于第一个 Token 生成第二个,依此类推。每一步的生成质量都依赖于前面所有步骤的正确性,错误会累积传播。扩散模型采用「全局并行」的生成——从完全噪声的状态开始,每一步同时对所有位置进行去噪。这意味着扩散模型没有「生成顺序」的概念,所有 Token 是同步演化到最终状态的。
这种差异带来了不同的行为特征:自回归模型在生成过程中可以「看到」已经确定的部分,这使得它在局部连贯性上表现出色;扩散模型在每个去噪步骤中都能看到整个序列的全局状态,这使得它在整体一致性上更有优势。
生成效率对比:自回归模型的生成时间与序列长度成正比——生成 N 个 Token 需要 N 次前向传播。扩散模型的生成时间与去噪步数成正比——通常需要 50-200 步,但每步可以并行处理所有 Token。对于短文本(< 50 Token),自回归模型更快;对于长文本(> 200 Token),经过优化的扩散模型可能具有优势。
生成质量对比:在标准语言建模基准(如 perplexity)上,自回归模型(GPT-4、Claude 等)仍然领先。但在需要全局一致性的任务(如长文本生成、结构化文本生成)中,扩散模型展现出了竞争力。特别是在文本编辑和重写任务中,扩散模型的可编辑性优势使其显著优于自回归模型。
可控性对比:这是扩散模型最大的优势。自回归模型的条件生成需要在生成前确定所有条件——你只能在开头给出提示,然后模型「自由发挥」。扩散模型可以在去噪过程中的任何步骤注入新的条件——这意味着你可以先生成一个粗稿,然后在中间步骤修改某些部分,而模型会自动调整全局以保持一致性。
| 维度 | 自回归模型 (GPT) | 扩散模型 (Diffusion-LM) |
|---|---|---|
| 生成方式 | 逐 Token 串行 | 全局并行去噪 |
| 错误传播 | 会累积 | 不累积(每步全局修正) |
| 短文本速度 | 快 | 慢 |
| 长文本速度 | 线性增长 | 相对恒定 |
| 全局一致性 | 中等 | 强 |
| 局部连贯性 | 强 | 中等 |
| 可编辑性 | 差(需重新生成) | 强(中途可修改) |
| 条件注入 | 仅在开头 | 任何步骤 |
| 训练稳定性 | 高 | 高 |
| 成熟度 | 极高 | 发展中 |
| 任务类型 | 自回归优势 | 扩散优势 |
|---|---|---|
短文本生成 (< 50 Token) | 速度快、质量高 | 速度慢 |
长文本生成 (> 200 Token) | 错误累积风险 | 全局一致性好 |
文本编辑/重写 | 需要重新生成 | 可中途修改 |
代码生成 | 语法连贯性强 | 全局结构理解 |
多语言翻译 | 逐词对齐准确 | 整体语义保持 |
结构化文本 (表格/JSON) | 格式容易出错 | 全局格式约束 |
如果你的任务需要反复修改和迭代(如文本编辑、风格迁移),扩散模型的可编辑性会大幅提升工作效率。如果是一次性生成(如问答、摘要),自回归模型可能更合适。
不要将扩散模型视为自回归模型的「替代品」。两者各有优劣,最务实的方案是根据任务类型选择合适的生成范式,或者探索两者的混合架构。
6扩散文本生成的关键技术突破
扩散文本生成在 2024-2026 年间经历了多个关键技术突破,使其从学术探索逐步走向实用化。
突破一:吸收扩散(Absorbing Diffusion)。如前所述,吸收扩散通过 Mask 机制将离散扩散过程与掩码语言模型建立联系。SEDD(Score Entropy for Discrete Diffusion)是这一方向的重要进展——它定义了一个在离散空间中的「分数熵」目标函数,使得扩散模型的训练可以直接在 Token 空间中进行,而不需要连续嵌入空间的近似。实验表明,SEDD 在语言建模困惑度上已经接近自回归模型。
突破二:加速采样。原始扩散模型需要 1000 步去噪,这在实际应用中是不可接受的。DDIM(Denoising Diffusion Implicit Models)将采样步数减少到 50 步,同时保持生成质量。在文本生成中,AR-Diffusion 提出了自回归扩散混合策略——在去噪的早期步骤中快速降噪声,在后期步骤中精细调整,将采样步数减少到 20-30 步。
突破三:Classifier-Free Guidance 适配。Classifier-Free Guidance 是扩散模型在图像生成中的关键技巧——通过同时训练条件和非条件模型,在采样时用线性插值引导生成方向。在文本生成中,这一技巧被适配为Token-level Guidance——在每个去噪步骤中,同时考虑条件提示和无条件生成的概率,通过温度参数控制引导强度。
突破四:混合架构(Hybrid Architecture)。最前沿的研究正在探索将自回归和扩散模型结合的方案:使用自回归模型生成文本的「骨架」(如大纲、关键句),然后使用扩散模型填充细节。这种混合架构结合了两者的优势——自回归的结构性和扩散的全局一致性。
2026 年的重要事件:吴恩达和 Karpathy 投资的扩散文本生成公司,正是基于上述技术突破,正在构建一个面向产业应用的扩散文本生成平台。他们的技术路线是吸收扩散 + 加速采样 + 混合架构的组合,目标是在代码生成和长文本编辑两个场景中实现超越自回归模型的性能。
# 混合架构: 自回归骨架 + 扩散填充
import torch
class HybridTextGenerator:
"""混合文本生成: 自回归生成骨架, 扩散模型填充细节"""
def __init__(self, autoregressive_model, diffusion_model):
self.ar_model = autoregressive_model # 自回归模型
self.diff_model = diffusion_model # 扩散模型
def generate(self, prompt, max_outline_sentences=5):
# 第一步: 自回归生成大纲/骨架
outline = self.ar_model.generate(
prompt,
max_sentences=max_outline_sentences,
temperature=0.7,
)
# 第二步: 扩散模型填充每个大纲段落的细节
full_text = []
for section in outline:
detail = self.diff_model.generate_from_outline(
section,
target_length=200, # 每个段落约 200 Token
num_steps=50,
)
full_text.append(detail)
return " ".join(full_text)| 技术突破 | 解决的问题 | 效果提升 |
|---|---|---|
吸收扩散 | 离散空间适配 | 困惑度接近自回归 |
DDIM 加速 | 采样速度慢 | 1000 步 → 50 步 |
AR-Diffusion | 采样速度仍慢 | 50 步 → 20-30 步 |
Classifier-Free Guidance | 条件生成质量 | 条件跟随度显著提升 |
混合架构 | 单一架构局限 | 结合两者优势 |
混合架构(自回归骨架 + 扩散填充)是目前最实用的扩散文本生成方案。如果你在生产环境中尝试扩散文本生成,建议从这个方向入手,而不是完全替换自回归模型。
扩散文本生成的加速采样技术(DDIM、AR-Diffusion)在减少采样步数的同时,可能会降低生成质量。在实际应用中需要通过实验找到速度和质量的平衡点。
7扩散文本生成的应用场景
扩散文本生成虽然在整体语言建模质量上仍落后于最先进的自回归模型,但在某些特定场景中已经展现出独特优势。
场景一:文本编辑与重写。这是扩散模型最具竞争力的应用场景。在自回归模型中,如果你想修改已经生成文本中的某一部分,通常需要从头重新生成。而在扩散模型中,你可以保留文本中不变的部分,只对需要修改的部分重新去噪。例如,将一篇文章的情感从正面改为负面,扩散模型可以在保持文章结构和大部分内容不变的情况下,只修改情感相关的词汇和表达方式。
场景二:长文本结构生成。当生成长度超过 500 Token 的文本时,自回归模型的错误累积问题开始显现——早期生成的错误会影响后续所有内容。扩散模型的全局并行生成使得每个位置都能同时看到整个序列的状态,减少了错误累积。这使得扩散模型在长文档生成(如报告、论文、小说章节)中具有优势。
场景三:代码生成与编辑。代码是一种高度结构化的文本——缩进、括号匹配、变量作用域等全局约束使得代码生成对全局一致性要求极高。扩散模型可以同时看到整个代码文件的状态,在去噪过程中确保语法结构的完整性。此外,代码编辑(如重构、函数替换)也是扩散模型的天然优势场景。
场景四:数据填充与补全。在数据库记录补全、表格数据生成等任务中,扩散模型的全局视野使其能够更好地保持数据项之间的一致性。例如,生成一个人的完整信息(姓名、年龄、地址、职业),扩散模型可以同时考虑所有字段的一致性约束。
场景五:多模态文本生成。当文本生成需要与图像、音频等其他模态对齐时(如图像描述生成、字幕生成),扩散模型可以与多模态扩散模型无缝集成——在同一个扩散框架中同时处理多种模态。
| 应用场景 | 扩散优势 | 自回归劣势 |
|---|---|---|
文本编辑/重写 | 可中途修改 | 需重新生成 |
长文档生成 | 无错误累积 | 错误传播 |
代码生成 | 全局结构约束 | 局部连贯优先 |
数据填充 | 多字段一致性 | 逐字段生成 |
多模态对齐 | 统一扩散框架 | 需要额外对齐模块 |
如果你在做代码编辑器或文档编辑工具,扩散文本生成的可编辑性是一个巨大的差异化优势。考虑将扩散模型集成到你的产品中,为用户提供「智能修改」功能。
扩散文本生成在开放式对话生成(如聊天机器人)中仍不占优势。自回归模型的逐 Token 生成更自然地模拟了人类对话的节奏,而扩散模型的「全局同时生成」在对话场景中反而显得不自然。
8扩散文本生成的局限性与挑战
尽管扩散文本生成在 2026 年取得了显著进展,但它仍然面临多个尚未解决的根本性挑战。
挑战一:生成质量的天花板。在标准语言建模基准上,最先进的自回归模型(如 GPT-4 级别的系统)仍然明显领先于扩散模型。这主要是因为自回归模型的训练目标(预测下一个 Token)与测试目标完全一致——模型在训练中学到的就是它要做的事情。而扩散模型的训练目标(预测加噪前的状态)与测试目标(从噪声中生成)之间存在微妙的差异,这可能导致性能上限的差异。
挑战二:采样速度的瓶颈。尽管加速采样技术将扩散模型的采样步数从 1000 步减少到 20-50 步,但每步的计算量(Transformer 前向传播)与自回归模型的一步相当。这意味着扩散模型在绝对速度上仍然落后——生成 100 个 Token,自回归模型需要 100 步轻量计算,扩散模型需要 50 步重量计算。
挑战三:评估指标的适配。传统的语言建模评估指标(如 perplexity)是为自回归模型设计的,可能不能公平地评估扩散模型。扩散模型生成文本的方式与自回归模型根本不同——它不是在预测下一个 Token,而是在执行全局去噪。需要开发专门针对扩散文本生成的评估指标,才能更准确地衡量其真实能力。
挑战四:训练数据的适配。扩散模型对训练数据的质量要求更高——因为去噪过程需要模型在所有噪声水平下都能恢复有意义的信号,如果训练数据中存在大量噪声或错误,模型学到的「恢复模式」也会被污染。自回归模型对训练噪声的容忍度相对较高,因为它只关注局部的前后关系。
挑战五:生态和工具链的缺失。自回归模型(特别是基于 Transformer 的模型)已经有了成熟的生态系统——Hugging Face Transformers、vLLM、Ollama 等工具和平台。扩散文本生成目前还缺乏这样的生态支持,从训练框架到部署工具链都需要从零构建。
这些挑战意味着扩散文本生成在短期内不会取代自回归模型,但会在特定场景中形成互补共存的格局。
| 挑战 | 严重程度 | 预计解决时间 |
|---|---|---|
生成质量天花板 | 高 | 2-3 年 |
采样速度瓶颈 | 中 | 1-2 年 |
评估指标适配 | 中 | 6-12 个月 |
训练数据适配 | 低 | 已有方案 |
生态工具链缺失 | 高 | 2-3 年 |
评估扩散文本生成时,不要只看 perplexity——这个指标对自回归模型更有利。关注任务级指标(如文本编辑的成功率、长文档的一致性评分),这些更能反映扩散模型的真实能力。
扩散文本生成仍然处于快速发展阶段。现在投入生产环境的项目需要有心理准备面对不完善的工具链和频繁的技术变更。建议先在非核心场景(如内部工具、实验性产品)中试用,积累经验后再逐步推广。
9扩展阅读与资源
扩散文本生成是一个快速发展的领域,以下资源可以帮助深入了解。
经典论文:Ho et al. 的 DDPM 论文(2020)是扩散模型的基础;Austin et al. 的 D3PM 论文(2021)首次将扩散模型应用于离散数据;Li et al. 的 Diffusion-LM 论文(2022)系统地探索了扩散模型在文本生成中的应用;Lou et al. 的 SEDD 论文(2023)提出了离散扩散的分数熵目标函数;Gong et al. 的 AR-Diffusion 论文(2024)将自回归和扩散模型结合。
开源项目:Hugging Face 的 diffusers 库已经支持文本扩散模型的训练和推理;Diffusion-LM 的官方实现可以在 GitHub 上找到;SEDD 的开源实现提供了离散扩散的参考代码。
学习路径建议:首先学习 DDPM 的原理和图像生成中的应用(genai-001),理解扩散模型的基本框架;然后学习 Transformer 架构(llm-001),掌握序列数据的处理方法;接着阅读 Diffusion-LM 和 SEDD 论文,理解离散扩散的具体实现;最后尝试在简单文本生成任务上复现扩散模型的结果。
与本文相关的知识点:扩散模型图像生成(genai-001)——理解扩散模型的基础;Transformer 架构(llm-001)——扩散文本生成的核心组件;掩码语言模型(nlp-002 BERT)——吸收扩散的理论基础;自回归语言模型(nlp-008)——对比分析的参照对象。
学习扩散文本生成的最佳路径是:DDPM 图像扩散 → Diffusion-LM 文本扩散 → 吸收扩散/SEDD → 混合架构。跳过基础直接阅读最新论文可能会错过关键的设计决策背后的动机。
扩散文本生成的论文增长极快,2026 年每季度的论文数量都在创新高。建议先掌握核心概念(连续扩散、离散化、吸收扩散),再追踪最新进展,避免被海量论文淹没。