核心要点
列举 resize、crop、normalize、色彩空间转换
说明与训练/推理一致性
区分分类、检测、分割的不同预处理
提及去噪、直方图均衡等可选步骤
简要回答
通用步骤
- 读取与解码:JPEG/PNG → ndarray(OpenCV、PIL)
- 几何变换:resize 到固定输入(224×224)、center/random crop、letterbox(检测保持比例)
- 色彩:BGR↔RGB;可选 HSV/LAB
- 去噪:高斯滤波、bilateral(保边去噪)
- 归一化:像素缩放到 [0,1] 或 ImageNet mean/std = $(x-mu)/sigma$
- 数据增强(训练):翻转、旋转、ColorJitter(PyTorch transforms)
- 格式:HWC → CHW float32 tensor,必要时 batch 维
任务差异
- 分类:固定 resize + center crop
- 检测:多尺度、mosaic、保持长宽比 pad
- 分割:同步变换图像与 mask(最近邻插值 mask)
工程要点
- 训练/推理 同一 normalization
- 注意 EXIF 方向、色彩配置文件
- 移动端量化前校准预处理
详见 CV 工程实践
标准回答
通用步骤
- 读取与解码:JPEG/PNG → ndarray(OpenCV、PIL)
- 几何变换:resize 到固定输入(224×224)、center/random crop、letterbox(检测保持比例)
- 色彩:BGR↔RGB;可选 HSV/LAB
- 去噪:高斯滤波、bilateral(保边去噪)
- 归一化:像素缩放到 [0,1] 或 ImageNet mean/std = $(x-mu)/sigma$
- 数据增强(训练):翻转、旋转、ColorJitter(PyTorch transforms)
- 格式:HWC → CHW float32 tensor,必要时 batch 维
任务差异
- 分类:固定 resize + center crop
- 检测:多尺度、mosaic、保持长宽比 pad
- 分割:同步变换图像与 mask(最近邻插值 mask)
工程要点
- 训练/推理 同一 normalization
- 注意 EXIF 方向、色彩配置文件
- 移动端量化前校准预处理
详见 CV 工程实践。
常见误区
⚠️ 常见踩坑
训练用 random crop、推理用另一套尺寸;mask 用双线性插值(应 nearest);忘记 BGR/RGB 通道顺序。
追问
追问 1:ImageNet 归一化参数为何通用?
追问 2:resize 用双线性还是最近邻?
自然图像(RGB 输入)用双线性/双三次,插值平滑、不引入锯齿;分割/标签 mask 必须用最近邻,否则会在类别 ID 之间插出不存在的中间值。下采样追求抗锯齿可用 area 插值。一句话:连续的像素值用双线性,离散的标签用最近邻。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📖 术语表
🛠️ AI 工具