核心要点

  • 定义深度:单目估计 vs 立体/结构光

  • 说明在机器人、AR、自动驾驶中的作用

  • 了解双目视差、SfM、深度网络

  • 指出尺度模糊与传感器融合

简要回答

为何重要:2D 图像丢失距离信息;深度使系统能判断障碍物远近、场景几何、真实尺度,是物理世界交互的前提

标准回答

为何重要:2D 图像丢失距离信息;深度使系统能判断障碍物远近、场景几何、真实尺度,是物理世界交互的前提。

获取深度方式

  1. 双目立体:视差 $d$,深度 $Z = fB/d$(基线 B、焦距 f)
  2. 结构光 / ToF:主动投射图案或测量飞行时间
  3. 运动结构 SfM:多视角三角化
  4. 单目深度估计CNN/Transformer 学先验(尺度模糊)

应用场景

  • 自动驾驶:可行驶区域、障碍物距离、融合激光雷达
  • 机器人:抓取规划、SLAM、避障
  • AR:虚实遮挡、平面检测、锚定
  • 工业:体积测量、缺陷三维形貌

挑战

  • 单目尺度不确定
  • 透明/反光/无纹理表面
  • 室外远距离精度
  • 实时性与标定维护

工具:RealSense、OpenCV StereoBM/SGBM、PyTorch 深度模型。详见 三维视觉

常见误区

⚠️ 常见踩坑

认为单目深度绝对准确;不说立体视觉基线限制;忽略与 IMU/LiDAR 融合。

追问

追问 1单目深度为何尺度模糊?

同样投影大小可能是近处小物或远处大物。网络靠绝对尺寸先验(车、人高度)猜尺度,换域需微调或用已知参考物标定。

追问 2LiDAR 和视觉深度互补吗?

LiDAR 稀疏但度量准确;相机稠密带语义。融合(BEV、点云投影)是自动驾驶主流,互补天气与距离盲区。

追问 3NeRF 和深度图关系?

NeRF 隐式建体积密度,可渲染新视角并导出深度;适合物体重建,实时 SLAM 仍多用传统/深度网络深度图。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。

🛠️ AI 工具

  • OpenCV

    开源计算机视觉库,87,181+ stars。全球最广泛使用的计算机视觉库,提供 2500+ 优化算法,涵盖图像处理、目标检测、人脸识别、相机标定等领域。支持 C++、Python、Java,是 AI 视觉应用的基石。

  • Pytorch

    Meta 开源的深度学习框架,100K+ stars。以动态计算图和 Pythonic 风格著称,在学术界和工业界都有广泛应用,支持分布式训练、移动端部署和 ONNX 导出