核心要点
语义分割:给每个像素打类别标签,同类不同个体不区分(无实例概念)
实例分割:在检测基础上给每个物体输出独立掩码,区分同类的不同个体
全景分割:统一前两者,stuff 类(天空、道路)按语义、things 类(人、车)按实例
选型:只关心区域用语义,要数个体/抠图用实例,自动驾驶全场景用全景
标准回答
语义分割(Semantic)
为每个像素预测一个类别,不区分同类的不同个体。两个挨着的人会被合并成同一片「人」区域。代表方法 FCN、U-Net、DeepLab,常用每像素交叉熵训练,mIoU 评估。
实例分割(Instance)
在目标检测的基础上为每个物体实例输出一张独立掩码,同类的不同个体彼此分开。代表 Mask R-CNN(检测框内预测掩码),评估常用 mask AP / mAP。它不要求覆盖背景等不可数的 stuff 类。
全景分割(Panoptic)
统一前两者:不可数的 stuff 类(天空、道路)按语义处理,可数的 things 类(人、车)按实例处理,每个像素同时得到「类别 + 实例 ID」且不重叠。指标为 PQ(Panoptic Quality)。
常见误区
⚠️ 常见踩坑
把语义分割说成「能区分每个个体」——它只分类别不分实例;混淆全景分割与实例分割,全景还必须覆盖 stuff 背景类。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。