核心要点

  • 语义分割:给每个像素打类别标签,同类不同个体不区分(无实例概念)

  • 实例分割:在检测基础上给每个物体输出独立掩码,区分同类的不同个体

  • 全景分割:统一前两者,stuff 类(天空、道路)按语义、things 类(人、车)按实例

  • 选型:只关心区域用语义,要数个体/抠图用实例,自动驾驶全场景用全景

标准回答

语义分割(Semantic)

为每个像素预测一个类别,不区分同类的不同个体。两个挨着的人会被合并成同一片「人」区域。代表方法 FCN、U-Net、DeepLab,常用每像素交叉熵训练,mIoU 评估。

实例分割(Instance)

目标检测的基础上为每个物体实例输出一张独立掩码,同类的不同个体彼此分开。代表 Mask R-CNN(检测框内预测掩码),评估常用 mask AP / mAP。它不要求覆盖背景等不可数的 stuff 类。

全景分割(Panoptic)

统一前两者:不可数的 stuff 类(天空、道路)按语义处理,可数的 things 类(人、车)按实例处理,每个像素同时得到「类别 + 实例 ID」且不重叠。指标为 PQ(Panoptic Quality)。

常见误区

⚠️ 常见踩坑

把语义分割说成「能区分每个个体」——它只分类别不分实例;混淆全景分割与实例分割,全景还必须覆盖 stuff 背景类。

追问

追问 1语义分割常用什么评估指标?

mIoU(mean Intersection-over-Union):逐类计算预测掩码与真值掩码的交并比再取平均。也会看像素准确率,但类别不平衡时 mIoU 更可靠。

追问 2实例分割为什么常基于目标检测?

因为「区分个体」天然需要先定位出每个物体。Mask R-CNN 等先用检测分支给出候选框与类别,再在框内逐像素预测二值掩码,从而把同类个体彼此分开。也有 SOLO、单阶段等不依赖框的做法。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。