变长序列如何用 Padding 与 Masking 处理？

Question 1

Accepted Answer

为什么要 Padding 同一个 batch 内序列长度不一，但张量要求规整形状，所以把短序列用占位符（如 <pad>）补到该 batch 的最大长度，才能拼成一个矩阵送入模型并行计算。 为什么要 Masking Padding 引入的占位符没有真实语义，若不处理会污染计算。Masking 用一个布尔/0-1 mask 标出真实位置与填充位置，让模型在两个地方忽略 pad： - 注意力层：构造 attention mask，把 pad 对应的注意力分数设为 -∞（或极大负数），经 softmax 后权重趋近 0，从而不关注填充位置。 - 损失计算：用 loss mask 只在真实 token 上累计损失，避免 pad 位置贡献梯度，否则会拉偏模型。 RNN 的高效做法 PyTorch 中先按长度排序，用 pack_padded_sequence 把 batch 打包，RNN 只在真实时间步上计算、跳过 pad，再用 pad_packed_sequence 还原，既正确又高效。

Question 2

注意力中的 padding mask 和 causal mask 有什么区别？

Accepted Answer

padding mask 屏蔽的是无意义的填充位置，按每条样本真实长度决定，用于忽略 pad；causal mask 屏蔽的是「未来位置」，让每个位置只能看到自己及之前的 token，用于自回归生成。两者可同时叠加使用。

Question 3

pad 在序列左边还是右边有区别吗？

Accepted Answer

有。RNN 通常右侧 padding 并配合 pack 处理；而需要取「最后一个时间步」表示时，左侧 padding 可让最后一位恰好是真实结尾。对解码生成、KV cache 等场景，padding 方向会影响实现，需与 mask 和位置编码保持一致。

变长序列如何用 Padding 与 Masking 处理？

核心要点

标准回答

常见误区

追问

延伸学习