核心要点

  • 能讲清三维表征:RGBD/点云描述场景几何,可做配准、分割与物体姿态估计

  • 能讲清 SLAM:同步定位与建图,估计机器人自身位姿并构建环境地图,是导航的基础

  • 能讲清场景表征:占据栅格(occupancy grid)/BEV 把空间离散为可通行/占据,供规划使用

  • 能说出感知-决策关系:感知误差(噪声/遮挡/漂移)直接影响下游规划与操作

标准回答

三维几何表征

具身体在物理世界行动,需三维感知。RGBD 相机/激光雷达产生点云,描述场景几何;在其上做配准、分割、物体姿态估计,为抓取和避障提供依据。

SLAM:定位与建图

SLAM(Simultaneous Localization and Mapping)同时估计机器人自身位姿并构建环境地图,是自主导航的基础。难点是累积漂移、动态物体与回环检测;视觉/激光/多传感器融合可提升鲁棒性

场景表征供规划

占据栅格地图把空间离散成「占据/空闲」便于路径规划;BEV(鸟瞰图)把多视角投影到俯视平面,常用于移动机器人与自动驾驶的统一表征。语义分割再赋予每个区域类别,支持语义导航。

感知影响决策

感知是闭环起点:点云噪声、遮挡、SLAM 漂移都会传导到规划与操作,因此需估计不确定性并做多传感器融合。

常见误区

⚠️ 常见踩坑

具身感知不是「跑个目标检测」就够:它要输出三维、带定位和可通行性的表征供规划用;忽视 SLAM 漂移和深度噪声,下游导航与抓取会系统性失败。

追问

追问 1BEV 表征为什么在移动机器人/自动驾驶里流行?

BEV 把多相机/多传感器统一投影到俯视平面,尺度一致、便于融合多视角与时序信息,且与路径规划、占据栅格天然对齐,便于直接做可通行性判断和轨迹规划,比在各自图像平面分别处理更利于决策。

追问 2SLAM 的累积漂移如何缓解?

主要靠回环检测:识别曾到过的位置并做位姿图优化,把累积误差摊平;辅以多传感器融合(IMU、轮速、激光、视觉互补)、关键帧与后端 Bundle Adjustment,以及在动态环境中剔除运动物体特征,减少错误关联。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。