核心要点
语义分割不分实例、实例分割分个体、全景分割统一 stuff+thing
输出是 H×W 像素级标签图(mask),评测主用 mIoU
编码器-解码器 + 跳连(U-Net)或空洞卷积(DeepLab)恢复分辨率
类别不平衡用 Dice/Focal Loss,边界精细与标注昂贵是主要难点
简要回答
任务定义:输入图像 $H imes W imes 3$,输出 $H imes W$ 标签图(mask);
分割类型
- 语义分割:同类像素同标签(路面、天空)
- 实例分割:区分每个行人、每辆车(Mask R-CNN)
- 全景分割:语义(stuff)+ 实例(thing)统一(Panoptic FPN)
经典架构
- FCN:全卷积端到端,上采样恢复分辨率
- U-Net:编码器-解码器 + 跳连,医学常用
- DeepLab:空洞卷积扩大感受野 + ASPP
- Mask R-CNN:检测框 + 每实例 mask 分支
损失:交叉熵、Dice、Focal Loss(类别不平衡)
应用
- 自动驾驶可行驶区域
- 医学器官/肿瘤勾画
- 卫星土地利用
- 视频抠图、AR
难点:边界精细、类别不平衡、标注昂贵
标准回答
任务定义:输入图像 $H imes W imes 3$,输出 $H imes W$ 标签图(mask)。
分割类型
- 语义分割:同类像素同标签(路面、天空)
- 实例分割:区分每个行人、每辆车(Mask R-CNN)
- 全景分割:语义(stuff)+ 实例(thing)统一(Panoptic FPN)
经典架构
- FCN:全卷积端到端,上采样恢复分辨率
- U-Net:编码器-解码器 + 跳连,医学常用
- DeepLab:空洞卷积扩大感受野 + ASPP
- Mask R-CNN:检测框 + 每实例 mask 分支
损失:交叉熵、Dice、Focal Loss(类别不平衡)
应用
- 自动驾驶可行驶区域
- 医学器官/肿瘤勾画
- 卫星土地利用
- 视频抠图、AR
难点:边界精细、类别不平衡、标注昂贵。
常见误区
⚠️ 常见踩坑
混淆检测框与分割 mask;语义实例不分;不说清评价指标(mIoU)。
追问
追问 1:mIoU 怎么算?
每类 IoU = TP/(TP+FP+FN),再对类别平均。忽略背景或按频率加权是常见变体;边界像素争议大,评测需统一规则。
追问 2:分割如何做数据增强?
核心是图像和 mask 必须同步几何变换(翻转、旋转、缩放、裁剪、弹性形变),且 mask 要用最近邻插值保持标签离散。颜色类增强(亮度、对比度)只作用于图像、不动 mask。Albumentations 提供对 mask 自动同步的接口。注意裁剪不要把小目标或边界类别裁没。
追问 3:弱监督/无监督分割可行吗?
图像级标签 + CAM 种子、涂鸦标注、对比学习聚类、SAM 提示分割。降低标注成本,但精度通常低于全监督。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📖 术语表
🛠️ AI 工具