💡
文章摘要
让机器看懂图像和视频。从图像分类、目标检测到图像分割,掌握 CNN 和视觉 Transformer 的核心技术。
0为什么学 CV?
自动驾驶、人脸识别、医学影像分析、工业质检——这些都是 CV 的应用。
2026 年,CV 和多模态(视觉+语言)正在融合。GPT-4V、Gemini Pro 都能"看懂"图片了。
架构图示 1
图表加载中…
架构图示 2
图表加载中…
🎯 相关面试题
巩固本篇知识点,备战 AI 岗位面试。
- 初级编码查看详解 →
手撕代码:实现两个边界框的 IoU
求两框交集面积与并集面积之比,关键是用 max(0,...) 钳制无重叠时的负宽高。
- 中级编码高频查看详解 →
手撕代码:实现非极大值抑制(NMS)
按分数排序,反复取最高分框并抑制与其 IoU 超阈值的框,去除冗余检测。
- 高级概念查看详解 →
Anchor-Free 目标检测(如 CenterNet/FCOS)相比 Anchor-Based 有何优势?
Anchor-Free 用关键点/中心+回归直接预测框,免去锚框设计与正负样本失衡,更简洁、超参更少。
- 中级概念查看详解 →
Focal Loss 如何解决目标检测中的类别不平衡?
Focal Loss 在交叉熵前乘 (1-p_t)^γ 调制因子,压低易分样本权重、聚焦难例,解决单阶段检测正负样本极不平衡。