核心要点
定义 CV:从图像/视频自动提取语义信息
类比人眼-脑通路:传感、预处理、识别
指出差异:注意机制、三维理解、常识
列举检测、分割、跟踪等任务
简要回答
定义:计算机视觉研究如何使机器从数字图像/视频中获取高层次理解(对象、动作、场景、文字);
与人眼视觉类比
| 环节 | 人类 | 计算机 |
|---|---|---|
| 传感 | 视网膜感光细胞 | 相机/CCD |
| 低层处理 | 侧抑制、边缘检测 | 滤波、边缘算子 |
| 中层 | 形状、运动感知 | CNN 中层特征 |
| 高层 | 物体识别、语义 | 分类头、检测头 |
| 注意 | 选择性关注 | 显著性、ROI、Transformer Attention |
相似点:层次处理
标准回答
定义:计算机视觉研究如何使机器从数字图像/视频中获取高层次理解(对象、动作、场景、文字)。
与人眼视觉类比
| 环节 | 人类 | 计算机 |
|---|---|---|
| 传感 | 视网膜感光细胞 | 相机/CCD |
| 低层处理 | 侧抑制、边缘检测 | 滤波、边缘算子 |
| 中层 | 形状、运动感知 | CNN 中层特征 |
| 高层 | 物体识别、语义 | 分类头、检测头 |
| 注意 | 选择性关注 | 显著性、ROI、Transformer Attention |
相似点:层次处理;对边缘、纹理、形状敏感;利用上下文。
差异点
- 人眼立体视差天然 深度感知;单目 CV 需估计深度
- 人类样本效率极高;深度学习需大量标注
- 人类有世界常识与因果;CV 模型易「对抗样本」 fooled
- 颜色恒常性人脑更强
入门:计算机视觉。
常见误区
⚠️ 常见踩坑
声称 CV 已全面超越人类视觉;忽略对抗样本与分布外泛化;混淆图像处理与 CV 高层语义。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📖 术语表
📰 AI 资讯
🛠️ AI 工具
- OpenCV
开源计算机视觉库,87,181+ stars。全球最广泛使用的计算机视觉库,提供 2500+ 优化算法,涵盖图像处理、目标检测、人脸识别、相机标定等领域。支持 C++、Python、Java,是 AI 视觉应用的基石。