Gradient（梯度）

梯度就是告诉模型『往哪个方向调参数，损失才会减小』的那个箭头。

亦作、亦称：梯度

梯度是深度学习优化的核心概念，描述损失函数相对于模型参数的变化方向与速率。理解梯度是掌握反向传播、梯度下降及各类现代优化器的前提。

概述

梯度是向量微积分中的核心概念，也是现代机器学习优化的数学基础。

梯度（Gradient）是标量函数对多个变量求偏导后组成的向量，记作 ∇f 或 grad f
在 n 维参数空间中，梯度向量有 n 个分量，每个分量对应一个参数的偏导数
梯度的方向指向函数增大最快的方向，模长表示该方向上的变化速率
机器学习中「梯度」通常特指损失函数对模型参数的梯度，用于指导参数更新

工作原理

梯度在神经网络训练中通过反向传播算法高效计算。

前向传播：输入数据经过网络各层计算，得到预测输出和损失值
反向传播：利用链式法则（Chain Rule）从输出层向输入层逐层计算梯度，∂L/∂w = (∂L/∂a)(∂a/∂z)(∂z/∂w)
参数更新：按 w ← w − η·∇L(w) 更新参数，η 为学习率（Learning Rate）
批量计算：实践中常对一批样本的梯度取均值（Mini-Batch Gradient），兼顾效率与稳定性

类型与变体

根据计算方式和使用场景，梯度相关方法有多种变体。

全批量梯度（Full-Batch Gradient）：对全部训练样本计算梯度，精确但计算量大
随机梯度（Stochastic Gradient，SGD）：每次仅用单个样本，速度快但噪声大
小批量梯度（Mini-Batch Gradient）：折中方案，目前深度学习主流做法
数值梯度（Numerical Gradient）：用有限差分近似偏导数，常用于梯度检验（Gradient Check）
梯度累积（Gradient Accumulation）：多步累加梯度再更新，用于显存受限场景

应用场景

梯度广泛应用于机器学习各类优化任务中。

神经网络训练：通过反向传播计算梯度，驱动 Adam、SGD 等优化器更新权重
超参数优化：元学习（Meta-Learning）中对超参数求梯度，实现自动调参
对抗样本生成：利用输入空间的梯度（如 FGSM）构造对抗扰动，用于安全研究
神经架构搜索（NAS）：可微分架构搜索通过对架构参数求梯度优化网络结构
强化学习中的策略梯度（Policy Gradient）：对策略参数求期望回报的梯度，直接优化策略

局限与误区

梯度相关的常见问题和认知误区需要特别注意。

梯度消失（Vanishing Gradient）：深层网络中梯度连乘后趋近于零，Sigmoid/Tanh 激活函数尤为明显；可用 ReLU 或残差连接缓解
梯度爆炸（Exploding Gradient）：梯度指数级增大导致训练不稳定；常用梯度裁剪（Gradient Clipping）处理
鞍点问题：高维空间中梯度为零不一定是极小值，可能是鞍点，自适应优化器（如 Adam）对此更鲁棒
常见误解：认为梯度为零则训练完成——实际可能陷入局部极小值或鞍点，需结合损失曲线综合判断

发展脉络

梯度及其在机器学习中的应用经历了近两个世纪的演进。

1676 年：Leibniz 发展链式法则，为梯度计算奠定数学基础
1847 年：Cauchy 提出最速下降法（Steepest Descent），梯度下降算法雏形出现
1970 年：Seppo Linnainmaa 在硕士论文中提出自动微分（Automatic Differentiation），为反向传播算法奠基
1986 年：Rumelhart、Hinton、Williams 发表论文，将反向传播推广至神经网络，梯度计算进入深度学习时代
2014 年后：Adam、RMSProp 等自适应梯度优化器兴起，大幅提升训练稳定性
2017 年至今：梯度检查点（Gradient Checkpointing）、混合精度梯度计算等技术使超大规模模型训练成为可能

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「梯度就是告诉模型『往哪个方向调参数，损失才会减小』的那个箭头。」
「梯度可以理解成山坡的坡度，训练就是让模型顺着坡往下走找最低点。」
「很多人以为梯度只是一个数，其实它是一个向量，每个参数对应一个分量。」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Gradient」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

Gradient（梯度）

概述

工作原理

类型与变体

应用场景

局限与误区

发展脉络

常见误解

相关术语

延伸阅读

反向传播：神经网络如何学习

深度网络梯度流与训练动态分析

梯度下降算法全解：从 SGD 到 Adam 的优化之路

外部参考

概述

工作原理

类型与变体

应用场景

局限与误区

与相邻概念的区别

发展脉络

常见误解

相关术语

延伸阅读

反向传播：神经网络如何学习

深度网络梯度流与训练动态分析

梯度下降算法全解：从 SGD 到 Adam 的优化之路

外部参考