核心要点
YOLO 是单阶段检测器:一次前向把图像划网格,直接回归框与类别,速度快
v2 引入 anchor box、Batch Norm、高分辨率微调,提升召回与精度
v3 用多尺度特征(FPN 思想)检测大中小目标,小目标更准
v4/v5 偏工程优化(数据增强、训练技巧、部署),后续转向 anchor-free 与 transformer
标准回答
单阶段范式
YOLO(You Only Look Once)把检测当作单次回归:将图像划分为网格,每个网格直接预测边界框、置信度和类别,相比 R-CNN 系两阶段方法省去候选框生成,实现实时检测。
关键演进
- v1:网格直接回归框与类别,快但定位粗、对小目标和密集目标弱。
- v2(YOLO9000):引入 anchor box、Batch Norm、更高输入分辨率与维度聚类,召回与精度提升。
- v3:采用多尺度预测(类 FPN),在三种尺度特征图上检测,显著改善大中小目标尤其小目标。
- v4 / v5:以工程化为主——丰富数据增强(Mosaic 等)、训练技巧、更强 backbone 与易用部署。
- 后续(v6/v7/v8 等):转向 anchor-free、解耦头,并引入 transformer 思想与端到端方案。
整体主线是:在保持实时的前提下,不断提升精度、对多尺度与小目标的适应性以及工程可用性。详见 目标检测:从 R-CNN 到 YOLO。
常见误区
⚠️ 常见踩坑
YOLO 是单阶段而非两阶段;anchor 是 v2 才引入、并非 v1 就有;后期版本逐步走向 anchor-free,别一概而论说 YOLO 都用 anchor。
追问
追问 1:单阶段(YOLO)和两阶段(Faster R-CNN)检测器怎么权衡?
两阶段先生成候选区域再分类回归,精度(尤其小目标/复杂场景)通常更高但慢;单阶段一次回归,速度快、适合实时与边缘部署,早期精度略逊,但随多尺度、anchor-free 等改进差距已大幅缩小。选型按实时性与精度需求权衡。
追问 2:anchor-free 相比 anchor-based 有什么好处?
anchor-based 需预设大量先验框,引入尺度/比例超参、正负样本不均衡和后处理复杂度;anchor-free 直接预测关键点或中心点+尺寸,减少超参与人工设计,简化流程、利于端到端,对尺度变化也更灵活,是近年 YOLO 与新检测器的趋势。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。