计算机视觉中的图像分割是什么？

Question 1

计算机视觉中的图像分割是什么？

Accepted Answer

任务定义：输入图像 $H imes W imes 3$，输出 $H imes W$ 标签图（mask）。 分割类型 - 语义分割：同类像素同标签（路面、天空） - 实例分割：区分每个行人、每辆车（Mask R-CNN） - 全景分割：语义（stuff）+ 实例（thing）统一（Panoptic FPN） 经典架构 - FCN：全卷积端到端，上采样恢复分辨率 - U-Net：编码器-解码器 + 跳连，医学常用 - DeepLab：空洞卷积扩大感受野 + ASPP - Mask R-CNN：检测框 + 每实例 mask 分支 损失：交叉熵、Dice、Focal Loss（类别不平衡） 应用 - 自动驾驶可行驶区域 - 医学器官/肿瘤勾画 - 卫星土地利用 - 视频抠图、AR 难点：边界精细、类别不平衡、标注昂贵。 详见 语义分割。工具：PyTorch segmentation models。

Question 2

mIoU 怎么算？

Accepted Answer

每类 IoU = TP/(TP+FP+FN)，再对类别平均。忽略背景或按频率加权是常见变体；边界像素争议大，评测需统一规则。

Question 3

分割如何做数据增强？

Accepted Answer

核心是图像和 mask 必须同步几何变换（翻转、旋转、缩放、裁剪、弹性形变），且 mask 要用最近邻插值保持标签离散。颜色类增强（亮度、对比度）只作用于图像、不动 mask。Albumentations 提供对 mask 自动同步的接口。注意裁剪不要把小目标或边界类别裁没。

Question 4

弱监督/无监督分割可行吗？

Accepted Answer

图像级标签 + CAM 种子、涂鸦标注、对比学习聚类、SAM 提示分割。降低标注成本，但精度通常低于全监督。

计算机视觉中的图像分割是什么？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习