文章摘要
掌握深度学习三大方向:神经网络基础、CNN 计算机视觉、RNN 序列模型。理解 Transformer 架构,这是大语言模型的基础。
0什么是深度学习?
机器学习靠"特征工程"(人工提取特征),深度学习靠"端到端学习"(从原始数据直接学)。
2012 年 AlexNet 在图像识别比赛中大获全胜,深度学习从此崛起。今天,几乎所有 AI 突破都来自深度学习。
2学习建议
重点投入时间:
- 神经网络基础(反向传播是核心)
- Transformer 架构(LLM 的基石)
可以略过的:
- CNN 的具体架构细节(知道思想就行)
- RNN 的数学推导(知道 LSTM 解决什么问题就行)
2026 年最重要的部分:Transformer。 它是 GPT、Claude、Gemini 的共同基础。
💡 一句话理解
💡 用 PyTorch 搭建一个简单的神经网络,亲手跑一次训练流程,比看十篇教程都管用。
3📍 推荐学习路径
本分类共 21 篇文章,以下是我们推荐的系统性学习路径:
第一阶段:神经网络基础(5 篇)
- 神经网络基础:从感知机到多层网络(dl-001)→ 理解神经网络的基本结构
- 神经网络基础:前向传播、反向传播与激活函数(dl-019)→ 掌握核心机制
- 反向传播:神经网络如何学习(dl-002)→ 深度理解梯度传播
- CNN:卷积神经网络架构详解(dl-006)→ 了解卷积思想
- CNN 卷积神经网络:从 LeNet 到 ResNet(dl-020)→ CNN 架构演进
第二阶段:核心进阶(选读 8 篇)
- 🔥 核心必读:注意力机制与 Transformer 架构(dl-004)、优化器:SGD, Momentum, Adam, AdamW(dl-007)、正则化:BatchNorm, LayerNorm, Dropout(dl-009)
- 深入理解:损失函数大全(dl-008)、初始化策略(dl-010)、迁移学习:预训练 + 微调范式(dl-015)
- 拓展阅读:RNN 与 LSTM(dl-003)、GAN 生成对抗网络(dl-005)
第三阶段:高级专题(按需选读)
- Mixture of Experts MoE(dl-017)、分布式训练(dl-016)、图神经网络 GNN(dl-013)、神经架构搜索 NAS(dl-014)
⚡速成建议:第一阶段 + 第二阶段的核心必读 = 深度学习的核心知识。其余可以在实践中按需补学。
| 阶段 | 文章数 | 预计时间 | 目标 |
|---|---|---|---|
第一阶段:神经网络基础 | 5 篇 | 1 周 | 理解神经网络基本原理,能搭建简单网络 |
第二阶段:核心进阶 | 8 篇(选读) | 2-3 周 | 掌握 Transformer、优化器、正则化等核心知识 |
第三阶段:高级专题 | 6 篇(按需) | 按需 | MoE、分布式训练等前沿技术 |
深度学习技术全景
学习路线图
🎯 相关面试题
巩固本篇知识点,备战 AI 岗位面试。
- 中级概念查看详解 →
什么是卷积神经网络(CNN)?何时使用?
CNN 通过卷积核局部扫描和权值共享提取空间层次特征,适合图像、视频等网格数据;在检测、分割、分类等视觉任务中是经典首选架构。
- 中级概念查看详解 →
什么是深度学习?与传统机器学习方法有何区别?
深度学习是机器学习子集,用多层神经网络自动学习层次特征表示;区别于传统 ML 需手工特征,深度学习可端到端从原始数据学习,但依赖更多数据与算力。
- 中级概念查看详解 →
一个 LSTM 单元的基本组成是什么?各门分别起什么作用?
LSTM 核心是贯穿时间的细胞状态加三个门控:遗忘门决定丢弃多少旧信息、输入门决定写入多少新信息、输出门决定输出多少作为隐藏状态,从而实现长期记忆与选择性读写。
- 中级概念查看详解 →
相比普通 RNN,LSTM 是如何缓解梯度消失问题的?
普通 RNN 反向传播时梯度沿时间连乘权重与激活导数,导致指数衰减或爆炸;LSTM 用 cell state 的加性更新与门控构造「恒等通路」,让梯度加性叠加而非连乘小数,从而缓解梯度消失。