手撕代码：用梯度下降实现线性回归

Question 1

手撕代码：用梯度下降实现线性回归？

Accepted Answer

线性回归用梯度下降最小化均方误差。前向计算预测 ŷ=Xw+b，残差 (ŷ−y) 既出现在损失里也出现在梯度里：对权重的梯度是 (2/N)·Xᵀ·残差，对偏置是残差的均值的两倍。每步沿负梯度方向更新参数。注意特征标准化能让损失曲面更接近各向同性，使统一学习率更易收敛。实现如下：

Question 2

复杂度是多少？如何优化？

Accepted Answer

每个 epoch 的前向与梯度都是 O(N·D)，共 O(epochs·N·D)。优化：大数据用 SGD / Mini-batch 每步只用一批样本；用 Adam 等自适应优化器加速；特征标准化改善条件数。若 D 不大，也可直接用正规方程 w=(XᵀX)⁻¹Xᵀy 一步求闭式解，避免迭代。

Question 3

梯度下降和正规方程如何取舍？

Accepted Answer

正规方程 O(D³) 来自矩阵求逆，特征维度高时昂贵且 XᵀX 可能奇异（需正则化）；梯度下降按 O(N·D) 扩展、可在线更新、适合大规模和稀疏数据。D 小且 N 适中时正规方程更省心，否则首选梯度下降。

核心要点