Point Cloud(点云)

点云就是激光雷达扫出来的一堆三维坐标点,把现实世界的形状原汁原味地记下来。

亦作、亦称:点云 · 3D point cloud · 三维点云 · LiDAR 点云

点云是三维感知的基础数据结构,广泛用于自动驾驶、机器人、数字孪生等领域。深度学习方法的兴起使得端到端点云理解成为可能,推动了 3D 视觉的快速发展。

概述

点云是三维场景或物体最直接的数字化表示形式之一。

  • 数据来源:LiDAR(激光雷达)、深度相机(Kinect、RealSense)、结构光扫描仪、ToF 传感器,以及由 SfM/MVS 算法从图像重建得到
  • 基本结构:每个点至少包含 (x, y, z) 坐标,可扩展为 (x, y, z, r, g, b)、强度(intensity)、法向量、语义标签等
  • 数据规模:自动驾驶场景单帧 LiDAR 点云通常为 2 万~20 万点;工业精密扫描可达数亿点
  • 核心价值:直接保留三维几何,无透视畸变,距离精度高(毫米级)

工作原理与数据特性

理解点云的处理难点,需先掌握其固有属性。

  • 无序性:点集中各点无固定顺序,同一场景的点云在不同顺序下应产生相同结果,即置换不变性
  • 不规则邻域:不同于图像的规则像素网格,点云中两点之间不存在天然的相邻关系,需显式构建 k-NN 或球查询确定邻域
  • 密度不均匀:靠近传感器的区域点密集,远处稀疏,给特征提取带来挑战
  • 噪声与遮挡:真实采集的点云常含离群点,且存在遮挡导致的几何缺失

处理方法与主要类型

针对点云无序稀疏的特性,学界发展出多种处理范式。

  • 点集直接处理PointNet(2017)用共享 MLP 对每点独立提取特征,再用 max pooling 聚合全局特征,天然满足置换不变性;PointNet++ 进一步引入分层 Set Abstraction 捕获局部结构
  • 体素化方法:将点云离散化为三维体素网格(Voxel),再应用 3D 卷积(VoxelNet)或 2D 鸟瞰图卷积(PointPillars),便于工程部署
  • 图神经网络(GNN):将点云建模为图,用 DGCNN 等方法在动态图上做边卷积,捕获局部几何关系
  • Transformer 方法Point Transformer 系列引入向量自注意力机制,Point Transformer V3 在大规模数据上实现 SOTA,展现强大扩展性

应用场景

点云作为三维感知的核心数据结构,支撑多个关键 AI 应用场景。

  • 自动驾驶感知:3D 目标检测(车辆、行人)、道路分割、高精地图建模;LiDAR 点云与摄像头图像多传感器融合是主流方案
  • 机器人导航与抓取:三维环境建图(SLAM)、障碍物避让、机械臂精准抓取姿态估计
  • 数字孪生与工业检测:工业零件三维扫描与精度检验、建筑信息模型(BIM)逆向建模、文物数字化保存
  • 医疗影像:CT/MRI 体数据转换为点云后进行器官分割与手术规划
  • AR/VR 与元宇宙:实时三维重建(NeRF 与点云结合)、沉浸式场景生成

与相邻概念的区别

点云与其他三维表示形式各有侧重,需根据任务选择合适格式。

  • 点云 vs 体素(Voxel Grid):体素有规则网格结构便于卷积,但内存消耗随分辨率立方增长;点云保留原始稀疏性,内存高效但需特殊算法
  • 点云 vs 网格(Mesh):网格含面片连接关系,适合渲染;点云无拓扑,更接近原始采集形态
  • 点云 vs NeRF / 3D Gaussian Splatting:NeRF 用神经网络隐式表示连续场景;点云是显式离散表示,可直接测量距离,但渲染质量不如 NeRF
  • 点云 vs 深度图:深度图为有序像素阵列(可反投影为点云),点云则为无序集合;深度图保留视角结构,处理更简单

局限与常见误区

使用点云时需警惕以下常见认知误区与实际限制。

  • 误区:点云就是稠密三维图像——点云是离散无序点集,没有像素邻域,直接套用 2D CNN 需经过投影或体素化转换
  • 误区:点云可以替代图像——点云缺乏颜色/纹理信息,在细粒度语义理解上弱于 RGB 图像,多传感器融合才是最优方案
  • 实际限制:LiDAR 在雨雪、浓雾、强反光等环境下精度显著下降;成本高(机械旋转式 LiDAR 数万元)
  • 计算限制:大规模点云(千万点级)实时处理对显存和计算资源要求极高,工程落地常需降采样(如最远点采样 FPS

发展脉络

点云处理从传统手工特征走向大规模深度学习,历经多个关键节点。

  • 1980s:激光测距仪普及,点云作为三维扫描输出形式确立
  • 2009FPFH(Fast Point Feature Histograms)等手工几何特征描述子成为配准主流
  • 2013:PCL(Point Cloud Library)开源,成为三维点云处理的工业标准库
  • 2017PointNet(Qi et al., Stanford, CVPR 2017)首次用深度神经网络直接处理点云,开创端到端三维理解
  • 2017PointNet++(NIPS 2017)引入分层局部特征学习,解决 PointNet 局部信息不足的问题
  • 2018PointPillarsVoxelNet 等实时检测框架推动自动驾驶落地
  • 2019DGCNN(EdgeConv)将图神经网络引入点云,动态构建局部图
  • 2021-2024Point Transformer 系列(V1/V2/V3)将注意力机制引入点云,在大规模数据上持续刷新 SOTA

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「点云就是激光雷达扫出来的一堆三维坐标点,把现实世界的形状原汁原味地记下来。」
  • 「点云不是图片,没有像素网格,每个点只知道自己在哪,不知道谁是邻居,所以普通卷积没法直接用。」
  • 「自动驾驶里看到的那些绿色/彩色的雷达扫描图,就是点云可视化后的样子。」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    3D 视觉:点云、NeRF、3D 重建

    从 2D 到 3D,掌握三维视觉的核心技术

  2. 2

    3D 视觉与 NeRF 渲染:从点云到数字孪生

    从传统点云处理到神经辐射场(NeRF),掌握 3D 视觉的完整技术栈和 2026 年最新进展

  3. 3

    自动驾驶感知系统:多传感器融合与目标检测

    自动驾驶感知系统是自动驾驶的核心技术栈。本文系统讲解从单一传感器到多传感器融合(摄像头+LiDAR+毫米波雷达)的完整方案,涵盖目标检测、语义分割、BEV表示、Occupancy Network以及工业级传感器融合架构设计。

外部参考

维基百科:查看「Point Cloud」词条

本页内容为本站原创撰写;维基百科链接仅作延伸参考。