核心要点
区分低层像素操作与高层语义理解
举例:滤波 vs 目标检测
说明二者在 pipeline 中的衔接
避免绝对割裂(有重叠)
标准回答
图像处理(Image Processing)
- 关注:信号层面质量与变换
- 典型操作:去噪、锐化、直方图均衡、几何变换、JPEG 压缩、频域滤波
- 输出:修改后的图像
- 理论:信号处理、傅里叶变换
- 工具:OpenCV imgproc 模块
计算机视觉(Computer Vision)
- 关注:从图像 理解 世界
- 典型任务:分类、检测、分割、跟踪、三维重建、OCR
- 输出:语义信息(标签、坐标、深度)
- 理论:机器学习、几何、深度学习
- 工具:PyTorch + torchvision
关系
- IP 常作为 CV 前端(去噪 → 边缘 → Hough)
- 深度学习模糊边界:CNN 一层层从 IP 式滤波到语义
- 「低级 IP」与「高级 CV」是光谱两端,非截然对立
面试答法:处理 = 变换图像;视觉 = 解释图像。举例:高斯模糊是 IP;识别猫是 CV。
常见误区
⚠️ 常见踩坑
绝对说 CV 不需要 IP;把 OpenCV 等同于 CV 全部;举不出各自例子。
追问
追问 1:深度学习算 IP 还是 CV?
取决于任务而非方法。深度网络做去噪、超分、风格迁移(图入图出)属图像处理;做分类、检测、分割(图入语义出)属计算机视觉。CNN 本身只是工具,浅层像 IP 式滤波、深层抽语义,正好横跨两端。所以问的关键是输出是图像还是语义。
追问 2:CV 工程师为什么要学 IP?
调试图像质量、设计增强、理解频域伪影、相机链路(去马赛克、HDR)、以及传统几何算法(标定、立体匹配)仍依赖 IP 基础。
追问 3:图形学(CG)和 CV 区别?
两者方向相反:图形学是「模型→图像」的正向渲染,从三维场景、几何与光照生成图片;计算机视觉是「图像→模型」的逆问题,从图片反推三维结构与语义。如今二者融合,可微渲染、NeRF、3D Gaussian Splatting 把渲染嵌入优化回路,用 CV 损失反向求解 CG 参数。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
🛠️ AI 工具