如何在 PyTorch 中实现自定义层？

Question 1

Accepted Answer

在 PyTorch 实现自定义层的标准模式： ``python class LinearCustom(nn.Module): def __init__(self, in_features, out_features): super().__init__() self.weight = nn.Parameter(torch.randn(out_features, in_features)) self.bias = nn.Parameter(torch.zeros(out_features)) def forward(self, x): return F.linear(x, self.weight, self.bias) class MyNorm(nn.Module): def __init__(self, dim, eps=1e-5): super().__init__() self.register_buffer('eps', torch.tensor(eps)) # 非参数状态 self.gamma = nn.Parameter(torch.ones(dim)) def forward(self, x): mean = x.mean(-1, keepdim=True) std = x.std(-1, keepdim=True) return self.gamma * (x - mean) / (std + self.eps) `` 要点： - nn.Parameter：自动加入 parameters()，参与优化 - register_buffer：持久化状态（如 running mean）但不训练 - super().__init__() 必须调用 - 子模块赋值给 self.xxx 自动注册 复杂层（Multi-Head Attention、自定义卷积）均遵循此模式。也可用 torch.autograd.Function 写自定义 autograd。详见 深度学习基础。

Question 2

Parameter 和 register_parameter 区别？

Accepted Answer

本质相同——self.w = nn.Parameter(...) 内部就是调 register_parameter("w", ...)。区别在 register_parameter 接受字符串名、可显式传 None 占位、参数名含特殊字符或动态生成时更方便；日常直接赋值 nn.Parameter 更简洁。

Question 3

何时用 autograd.Function？

Accepted Answer

当你要自定义反向传播公式时——比如实现数值更稳定的梯度、对接 C++/CUDA 自定义算子、或做梯度截断/STE（直通估计器）。它要求实现 forward 和 backward 两个静态方法。普通层只组合已有可微算子时无需用它，Autograd 会自动求导。

Question 4

自定义层如何初始化权重？

Accepted Answer

在 __init__ 末尾显式初始化，常用 torch.nn.init，如 nn.init.kaiming_uniform_(self.weight)（配 ReLU）或 xavier_uniform_（配 tanh/sigmoid），bias 通常置 0。也可写 reset_parameters() 方法集中管理。默认 randn 方差不当会导致梯度爆炸或消失。

如何在 PyTorch 中实现自定义层？

核心要点

标准回答

常见误区

追问

延伸学习