核心要点

  • 语义分割不分实例、实例分割分个体、全景分割统一 stuff+thing

  • 输出是 H×W 像素级标签图(mask),评测主用 mIoU

  • 编码器-解码器 + 跳连(U-Net)或空洞卷积(DeepLab)恢复分辨率

  • 类别不平衡用 Dice/Focal Loss,边界精细与标注昂贵是主要难点

简要回答

任务定义:输入图像 $H imes W imes 3$,输出 $H imes W$ 标签图(mask);

分割类型

  • 语义分割:同类像素同标签(路面、天空)
  • 实例分割:区分每个行人、每辆车(Mask R-CNN
  • 全景分割:语义(stuff)+ 实例(thing)统一(Panoptic FPN)

经典架构

  • FCN:全卷积端到端,上采样恢复分辨率
  • U-Net:编码器-解码器 + 跳连,医学常用
  • DeepLab:空洞卷积扩大感受野 + ASPP
  • Mask R-CNN:检测框 + 每实例 mask 分支

损失交叉熵、Dice、Focal Loss(类别不平衡)

应用

  • 自动驾驶可行驶区域
  • 医学器官/肿瘤勾画
  • 卫星土地利用
  • 视频抠图、AR

难点:边界精细、类别不平衡、标注昂贵

标准回答

任务定义:输入图像 $H imes W imes 3$,输出 $H imes W$ 标签图(mask)。

分割类型

  • 语义分割:同类像素同标签(路面、天空)
  • 实例分割:区分每个行人、每辆车(Mask R-CNN)
  • 全景分割:语义(stuff)+ 实例(thing)统一(Panoptic FPN)

经典架构

  • FCN:全卷积端到端,上采样恢复分辨率
  • U-Net:编码器-解码器 + 跳连,医学常用
  • DeepLab:空洞卷积扩大感受野 + ASPP
  • Mask R-CNN:检测框 + 每实例 mask 分支

损失:交叉熵、Dice、Focal Loss(类别不平衡)

应用

  • 自动驾驶可行驶区域
  • 医学器官/肿瘤勾画
  • 卫星土地利用
  • 视频抠图、AR

难点:边界精细、类别不平衡、标注昂贵。

详见 语义分割。工具:PyTorch segmentation models。

常见误区

⚠️ 常见踩坑

混淆检测框与分割 mask;语义实例不分;不说清评价指标(mIoU)。

追问

追问 1mIoU 怎么算?

每类 IoU = TP/(TP+FP+FN),再对类别平均。忽略背景或按频率加权是常见变体;边界像素争议大,评测需统一规则。

追问 2分割如何做数据增强?

核心是图像和 mask 必须同步几何变换(翻转、旋转、缩放、裁剪、弹性形变),且 mask 要用最近邻插值保持标签离散。颜色类增强(亮度、对比度)只作用于图像、不动 mask。Albumentations 提供对 mask 自动同步的接口。注意裁剪不要把小目标或边界类别裁没。

追问 3弱监督/无监督分割可行吗?

图像级标签 + CAM 种子、涂鸦标注、对比学习聚类、SAM 提示分割。降低标注成本,但精度通常低于全监督。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。

🛠️ AI 工具

  • OpenCV

    开源计算机视觉库,87,181+ stars。全球最广泛使用的计算机视觉库,提供 2500+ 优化算法,涵盖图像处理、目标检测、人脸识别、相机标定等领域。支持 C++、Python、Java,是 AI 视觉应用的基石。

  • Pytorch

    Meta 开源的深度学习框架,100K+ stars。以动态计算图和 Pythonic 风格著称,在学术界和工业界都有广泛应用,支持分布式训练、移动端部署和 ONNX 导出