语义分割、实例分割与全景分割有什么区别？

Question 1

Accepted Answer

语义分割（Semantic） 为每个像素预测一个类别，不区分同类的不同个体。两个挨着的人会被合并成同一片「人」区域。代表方法 FCN、U-Net、DeepLab，常用每像素交叉熵训练，mIoU 评估。 实例分割（Instance） 在目标检测的基础上为每个物体实例输出一张独立掩码，同类的不同个体彼此分开。代表 Mask R-CNN（检测框内预测掩码），评估常用 mask AP / mAP。它不要求覆盖背景等不可数的 stuff 类。 全景分割（Panoptic） 统一前两者：不可数的 stuff 类（天空、道路）按语义处理，可数的 things 类（人、车）按实例处理，每个像素同时得到「类别 + 实例 ID」且不重叠。指标为 PQ（Panoptic Quality）。

Question 2

语义分割常用什么评估指标？

Accepted Answer

mIoU（mean Intersection-over-Union）：逐类计算预测掩码与真值掩码的交并比再取平均。也会看像素准确率，但类别不平衡时 mIoU 更可靠。

Question 3

实例分割为什么常基于目标检测？

Accepted Answer

因为「区分个体」天然需要先定位出每个物体。Mask R-CNN 等先用检测分支给出候选框与类别，再在框内逐像素预测二值掩码，从而把同类个体彼此分开。也有 SOLO、单阶段等不依赖框的做法。

语义分割、实例分割与全景分割有什么区别？

核心要点

标准回答

常见误区

追问

延伸学习