核心要点

  • 定义 CV:从图像/视频自动提取语义信息

  • 类比人眼-脑通路:传感、预处理、识别

  • 指出差异:注意机制、三维理解、常识

  • 列举检测、分割、跟踪等任务

简要回答

定义:计算机视觉研究如何使机器从数字图像/视频中获取高层次理解(对象、动作、场景、文字);

与人眼视觉类比

环节 人类 计算机
传感 视网膜感光细胞 相机/CCD
低层处理 侧抑制、边缘检测 滤波、边缘算子
中层 形状、运动感知 CNN 中层特征
高层 物体识别、语义 分类头、检测头
注意 选择性关注 显著性、ROI、Transformer Attention

相似点:层次处理

标准回答

定义:计算机视觉研究如何使机器从数字图像/视频中获取高层次理解(对象、动作、场景、文字)。

与人眼视觉类比

环节 人类 计算机
传感 视网膜感光细胞 相机/CCD
低层处理 侧抑制、边缘检测 滤波、边缘算子
中层 形状、运动感知 CNN 中层特征
高层 物体识别、语义 分类头、检测头
注意 选择性关注 显著性、ROI、Transformer Attention

相似点:层次处理;对边缘、纹理、形状敏感;利用上下文。

差异点

  1. 人眼立体视差天然 深度感知;单目 CV 需估计深度
  2. 人类样本效率极高;深度学习需大量标注
  3. 人类有世界常识与因果;CV 模型易「对抗样本」 fooled
  4. 颜色恒常性人脑更强

核心任务目标检测语义分割OCR、三维重建、视频理解。

入门:计算机视觉

常见误区

⚠️ 常见踩坑

声称 CV 已全面超越人类视觉;忽略对抗样本与分布外泛化;混淆图像处理与 CV 高层语义。

追问

追问 1人类视觉哪些能力 CV 仍欠缺?

小样本/零样本快速学习、强分布外泛化与对抗鲁棒性、基于常识与因果的场景推理、稳定的颜色与亮度恒常性,以及主动注意与持续学习。例如人看一眼就能认新物体,而模型常需大量标注且易被对抗扰动或罕见场景骗到。这些是当前 CV 与人类视觉的主要差距。

追问 2CV 和神经科学互相借鉴的例子?

CNN 的局部感受野与层次特征受 Hubel-Wiesel 视觉皮层简单/复杂细胞启发;注意力机制类比选择性注意;脉冲神经网络与事件相机模拟生物神经编码。反向上,深度网络也被神经科学用作 V1-IT 腹侧通路的计算模型来解释脑活动。两者长期双向启发。

追问 3事件相机 vs 传统帧相机?

事件相机异步报告亮度变化,高动态范围、低延迟,利于高速运动;需新算法,与传统 CV pipeline 不同。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。