核心要点

  • 列举 resize、crop、normalize、色彩空间转换

  • 说明与训练/推理一致性

  • 区分分类、检测、分割的不同预处理

  • 提及去噪、直方图均衡等可选步骤

简要回答

通用步骤

  1. 读取与解码:JPEG/PNG → ndarray(OpenCV、PIL)
  2. 几何变换:resize 到固定输入(224×224)、center/random crop、letterbox(检测保持比例)
  3. 色彩:BGR↔RGB;可选 HSV/LAB
  4. 去噪:高斯滤波、bilateral(保边去噪)
  5. 归一化:像素缩放到 [0,1] 或 ImageNet mean/std = $(x-mu)/sigma$
  6. 数据增强(训练):翻转、旋转、ColorJitter(PyTorch transforms)
  7. 格式:HWC → CHW float32 tensor,必要时 batch 维

任务差异

  • 分类:固定 resize + center crop
  • 检测:多尺度、mosaic、保持长宽比 pad
  • 分割:同步变换图像与 mask(最近邻插值 mask)

工程要点

  • 训练/推理 同一 normalization
  • 注意 EXIF 方向、色彩配置文件
  • 移动端量化前校准预处理

详见 CV 工程实践

标准回答

通用步骤

  1. 读取与解码:JPEG/PNG → ndarray(OpenCV、PIL)
  2. 几何变换:resize 到固定输入(224×224)、center/random crop、letterbox(检测保持比例)
  3. 色彩:BGR↔RGB;可选 HSV/LAB
  4. 去噪:高斯滤波、bilateral(保边去噪)
  5. 归一化:像素缩放到 [0,1] 或 ImageNet mean/std = $(x-mu)/sigma$
  6. 数据增强(训练):翻转、旋转、ColorJitter(PyTorch transforms)
  7. 格式:HWC → CHW float32 tensor,必要时 batch 维

任务差异

  • 分类:固定 resize + center crop
  • 检测:多尺度、mosaic、保持长宽比 pad
  • 分割:同步变换图像与 mask(最近邻插值 mask)

工程要点

  • 训练/推理 同一 normalization
  • 注意 EXIF 方向、色彩配置文件
  • 移动端量化前校准预处理

详见 CV 工程实践

常见误区

⚠️ 常见踩坑

训练用 random crop、推理用另一套尺寸;mask 用双线性插值(应 nearest);忘记 BGR/RGB 通道顺序。

追问

追问 1ImageNet 归一化参数为何通用?

mean=[0.485,0.456,0.406]、std=[0.229,0.224,0.225] 是 ImageNet 训练集统计量。因为多数预训练 backbone 都在 ImageNet 上训练,微调时必须用同一套均值方差,否则输入分布与预训练不匹配会掉点。若从头训练自有大数据集,应统计自己数据的 mean/std;医学/遥感等差异大的域更要重算。

追问 2resize 用双线性还是最近邻?

自然图像(RGB 输入)用双线性/双三次,插值平滑、不引入锯齿;分割/标签 mask 必须用最近邻,否则会在类别 ID 之间插出不存在的中间值。下采样追求抗锯齿可用 area 插值。一句话:连续的像素值用双线性,离散的标签用最近邻。

追问 3预处理放在 CPU 还是 GPU?

轻量解码/resize 常在 CPU 多进程 DataLoader 完成,与 GPU 训练重叠流水。但当 CPU 成为瓶颈(高分辨率、强增强)时,用 NVIDIA DALI、Kornia 或 torchvision GPU transforms 把解码与增强放到 GPU,减少 CPU-GPU 拷贝。推理服务则倾向把 normalize 融进模型或推理引擎,保证 train/serve 一致。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。

🛠️ AI 工具

  • OpenCV

    开源计算机视觉库,87,181+ stars。全球最广泛使用的计算机视觉库,提供 2500+ 优化算法,涵盖图像处理、目标检测、人脸识别、相机标定等领域。支持 C++、Python、Java,是 AI 视觉应用的基石。

  • Pytorch

    Meta 开源的深度学习框架,100K+ stars。以动态计算图和 Pythonic 风格著称,在学术界和工业界都有广泛应用,支持分布式训练、移动端部署和 ONNX 导出

  • kornia

    几何计算机视觉库,11K+ stars。面向空间 AI 的几何计算机视觉库,提供 OpenCV 风格的 PyTorch 原生计算机视觉操作