具身智能的感知（点云 / SLAM / 占据栅格）包含什么？

Question 1

Accepted Answer

三维几何表征 具身体在物理世界行动，需三维感知。RGBD 相机/激光雷达产生点云，描述场景几何；在其上做配准、分割、物体姿态估计，为抓取和避障提供依据。 SLAM：定位与建图 SLAM（Simultaneous Localization and Mapping）同时估计机器人自身位姿并构建环境地图，是自主导航的基础。难点是累积漂移、动态物体与回环检测；视觉/激光/多传感器融合可提升鲁棒性。 场景表征供规划 占据栅格地图把空间离散成「占据/空闲」便于路径规划；BEV（鸟瞰图）把多视角投影到俯视平面，常用于移动机器人与自动驾驶的统一表征。语义分割再赋予每个区域类别，支持语义导航。 感知影响决策 感知是闭环起点：点云噪声、遮挡、SLAM 漂移都会传导到规划与操作，因此需估计不确定性并做多传感器融合。

Question 2

BEV 表征为什么在移动机器人/自动驾驶里流行？

Accepted Answer

BEV 把多相机/多传感器统一投影到俯视平面，尺度一致、便于融合多视角与时序信息，且与路径规划、占据栅格天然对齐，便于直接做可通行性判断和轨迹规划，比在各自图像平面分别处理更利于决策。

Question 3

SLAM 的累积漂移如何缓解？

Accepted Answer

主要靠回环检测：识别曾到过的位置并做位姿图优化，把累积误差摊平；辅以多传感器融合（IMU、轮速、激光、视觉互补）、关键帧与后端 Bundle Adjustment，以及在动态环境中剔除运动物体特征，减少错误关联。

具身智能的感知（点云 / SLAM / 占据栅格）包含什么？

核心要点

标准回答

常见误区

追问

延伸学习