在 PyTorch 中创建神经网络模型的步骤有哪些？

Question 1

Accepted Answer

在 PyTorch 中创建并训练 神经网络 的标准步骤： 1. 定义模型：继承 nn.Module，在 __init__ 中声明层，在 forward 中写前向逻辑。 ``python class Net(nn.Module): def __init__(self): super().__init__() self.fc = nn.Linear(784, 10) def forward(self, x): return self.fc(x.view(x.size(0), -1)) model = Net().to(device) `` 2. 数据管道：Dataset + DataLoader（batch、shuffle、num_workers）。 3. 损失与优化器：criterion = nn.CrossEntropyLoss()；optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)。 4. 训练循环：model.train() → 遍历 batch → zero_grad → forward → loss → backward → step。 5. 验证：model.eval() + torch.no_grad() 算验证指标。 6. 持久化：torch.save(model.state_dict(), 'ckpt.pt')。 也可用 nn.Sequential 快速堆叠简单层。复杂架构（残差、注意力）建议自定义 Module。详见 深度学习基础。

Question 2

nn.Module 和 nn.Sequential 怎么选？

Accepted Answer

nn.Sequential 是简单的层线性堆叠，前向就是按顺序依次调用，适合纯串联的结构、代码简洁；但它无法表达分支、跳跃连接、多输入输出或带条件的前向逻辑。需要残差连接、注意力、多分支等非线性拓扑时，应继承 nn.Module 自定义 forward。实践中常两者混用：用 Sequential 封装子块，再在 Module 里组合。

Question 3

model.to(device) 要注意什么？

Accepted Answer

要点：模型和输入数据必须在同一设备，否则报 device mismatch；optimizer 应在 model.to(device) 之后再创建（让它引用 GPU 上的参数）；.to(device) 对模型是原地迁移参数，但对张量返回新张量、需重新赋值（x = x.to(device)）；从 checkpoint 加载时注意 map_location，避免在无 GPU 机器上加载 GPU 张量报错。

Question 4

如何实现早停（Early Stopping）？

Accepted Answer

监控验证 loss，若连续 N epoch 无改善则停止并恢复最佳 checkpoint。可用回调或手写逻辑，避免在验证集上过拟合超参。

在 PyTorch 中创建神经网络模型的步骤有哪些？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习