神经网络

模仿大脑的计算图

亦作、亦称：NN · 人工神经网络

人工神经网络是由大量相互连接的「神经元」节点按层级组织而成的计算模型，通过反向传播算法从数据中自动学习参数，能够逼近复杂函数。它是深度学习的核心基础结构，几乎所有现代 AI 系统——从图像识别到大语言模型——都以神经网络为基础构件。

概述

基本概念

神经网络由层次化的节点（神经元）和连接权重组成，模拟生物神经系统的信息处理方式。

神经元：接收加权输入之和，经激活函数变换后输出，是网络的最小计算单元
权重与偏置：可学习参数，决定各连接的信号强度，训练时通过数据持续调整
前向传播：数据从输入层逐层计算流向输出层，产生预测结果
层次结构：分为输入层、若干隐藏层和输出层，隐藏层数量决定网络「深度」
激活函数：引入非线性变换（如 ReLU、Sigmoid、GELU），使网络能拟合复杂函数

发展脉络

神经网络经历了三次重要浪潮与两次「寒冬」，最终因算力与数据爆发进入深度学习时代。

1943：McCulloch 与 Pitts 发表数学神经元模型，奠定理论基础
1958：Rosenblatt 发明感知机（Perceptron），实现首个可学习的线性分类器
1969：Minsky 与 Papert 证明单层感知机无法解决 XOR 问题，引发第一次 AI 寒冬
1986：Rumelhart、Hinton、Williams 在 Nature 发表论文，系统提出反向传播算法，多层网络训练成为可能
1989：Cybenko 证明万能逼近定理，针对 Sigmoid 激活函数严格证明单隐层网络可近似任意连续函数
2012：AlexNet 在 ImageNet 竞赛夺冠，深度卷积网络引爆新一轮浪潮
2017 至今：Transformer 架构兴起，预训练大模型成为主流范式

训练机制

神经网络的训练本质是通过优化算法最小化预测误差，迭代调整所有权重参数。

损失函数：衡量预测值与真实值的差距，常见有交叉熵（分类）和均方误差（回归）
反向传播：利用链式法则将损失对每个参数的梯度从输出层逐层向输入层传递
梯度下降：沿梯度反方向更新参数，常用 SGD、Adam 等优化器加速收敛
批归一化：稳定中间层分布，缓解梯度消失，大幅提高训练速度
正则化：Dropout、权重衰减等手段抑制过拟合，提升模型泛化能力

主要架构

不同任务催生了多种专用网络结构，各有其归纳偏置与适用场景。

多层感知机（MLP）：全连接结构，适合表格数据和特征融合，是最基础形态
卷积神经网络（CNN）：共享卷积核，擅长图像的局部特征提取（LeNet、ResNet）
循环神经网络（RNN / LSTM）：具有时序记忆，用于序列建模，已逐渐被 Transformer 取代
Transformer：基于自注意力机制，当前大语言模型和多模态模型的主流骨干
图神经网络（GNN）：处理图结构数据，适用于分子、社交网络等场景

万能逼近定理

万能逼近定理为神经网络的表达能力提供了理论保证，也揭示了宽度与深度的权衡。

核心结论：含足够多神经元的单隐层前馈网络，可在紧致集上以任意精度近似任意连续函数
Cybenko（1989）：针对 Sigmoid 激活函数，用泛函分析方法首先严格证明
Hornik（1991）：将结论推广至更广泛的激活函数类别，指出关键在于多层结构本身而非具体激活函数
实践含义：定理保证「能力下界」，但不说明如何高效训练；现实中深窄结构配合残差连接往往优于超宽浅层网络
局限性：定理仅证明近似存在性，不保证参数数量、泛化性或可训练性

现代工程实践

当代神经网络工程以规模化（Scaling）和模块化为核心，并高度依赖基础设施支持。

残差连接：跳跃连接缓解梯度消失，使百层以上深网络训练成为常规（ResNet, 2015）
混合精度训练：FP16/BF16 与 FP32 混用，在保持精度的同时大幅降低显存占用
分布式训练：数据并行、模型并行、流水线并行协同，支撑千亿参数规模
预训练 + 微调：大规模预训练学习通用表示，下游任务以少量数据微调，成为主流范式
Scaling Law：参数量、数据量、算力三者协同增长时，模型性能呈幂律提升

局限性与挑战

尽管表现出色，神经网络仍面临可解释性、数据效率和安全性等方面的根本挑战。

黑箱问题：内部权重缺乏直观语义，决策过程难以解释，限制高风险场景应用
数据饥渴：达到优秀性能通常需要大量标注数据，标注成本高昂
对抗样本：微小的不可感知扰动可欺骗模型产生严重错误，安全性存在隐患
幻觉与可靠性：大模型在生成任务中易产生事实错误，缺乏可靠的自我校验机制
算力与能耗：训练大型网络需要大量 GPU 资源和电力，碳排放问题日益受到关注

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「模仿大脑的计算图」
「深度学习的基本单元」
「一层层神经元堆起来」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「神经网络」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

神经网络

概述

基本概念

发展脉络

训练机制

主要架构

万能逼近定理

现代工程实践

局限性与挑战

常见误解

相关术语

延伸阅读

神经网络基础：从感知机到多层网络

机器学习基础：从线性模型到决策树

反向传播：神经网络如何学习

外部参考

觉得内容有帮助？请站长喝杯咖啡 ☕