计算机视觉流水线中有哪些常见图像预处理步骤？

Question 1

Accepted Answer

通用步骤 1. 读取与解码：JPEG/PNG → ndarray（OpenCV、PIL） 2. 几何变换：resize 到固定输入（224×224）、center/random crop、letterbox（检测保持比例） 3. 色彩：BGR↔RGB；可选 HSV/LAB 4. 去噪：高斯滤波、bilateral（保边去噪） 5. 归一化：像素缩放到 [0,1] 或 ImageNet mean/std = $(x-mu)/sigma$ 6. 数据增强（训练）：翻转、旋转、ColorJitter（PyTorch transforms） 7. 格式：HWC → CHW float32 tensor，必要时 batch 维 任务差异 - 分类：固定 resize + center crop - 检测：多尺度、mosaic、保持长宽比 pad - 分割：同步变换图像与 mask（最近邻插值 mask） 工程要点 - 训练/推理 同一 normalization - 注意 EXIF 方向、色彩配置文件 - 移动端量化前校准预处理 详见 CV 工程实践。

Question 2

ImageNet 归一化参数为何通用？

Accepted Answer

mean=[0.485,0.456,0.406]、std=[0.229,0.224,0.225] 是 ImageNet 训练集统计量。因为多数预训练 backbone 都在 ImageNet 上训练，微调时必须用同一套均值方差，否则输入分布与预训练不匹配会掉点。若从头训练自有大数据集，应统计自己数据的 mean/std；医学/遥感等差异大的域更要重算。

Question 3

resize 用双线性还是最近邻？

Accepted Answer

自然图像（RGB 输入）用双线性/双三次，插值平滑、不引入锯齿；分割/标签 mask 必须用最近邻，否则会在类别 ID 之间插出不存在的中间值。下采样追求抗锯齿可用 area 插值。一句话：连续的像素值用双线性，离散的标签用最近邻。

Question 4

预处理放在 CPU 还是 GPU？

Accepted Answer

轻量解码/resize 常在 CPU 多进程 DataLoader 完成，与 GPU 训练重叠流水。但当 CPU 成为瓶颈（高分辨率、强增强）时，用 NVIDIA DALI、Kornia 或 torchvision GPU transforms 把解码与增强放到 GPU，减少 CPU-GPU 拷贝。推理服务则倾向把 normalize 融进模型或推理引擎，保证 train/serve 一致。

计算机视觉流水线中有哪些常见图像预处理步骤？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习