Point Cloud（点云）

点云就是激光雷达扫出来的一堆三维坐标点，把现实世界的形状原汁原味地记下来。

亦作、亦称：点云 · 3D point cloud · 三维点云 · LiDAR 点云

点云是三维感知的基础数据结构，广泛用于自动驾驶、机器人、数字孪生等领域。深度学习方法的兴起使得端到端点云理解成为可能，推动了 3D 视觉的快速发展。

概述

点云是三维场景或物体最直接的数字化表示形式之一。

数据来源：LiDAR（激光雷达）、深度相机（Kinect、RealSense）、结构光扫描仪、ToF 传感器，以及由 SfM/MVS 算法从图像重建得到
基本结构：每个点至少包含 (x, y, z) 坐标，可扩展为 (x, y, z, r, g, b)、强度（intensity）、法向量、语义标签等
数据规模：自动驾驶场景单帧 LiDAR 点云通常为 2 万～20 万点；工业精密扫描可达数亿点
核心价值：直接保留三维几何，无透视畸变，距离精度高（毫米级）

理解点云的处理难点，需先掌握其固有属性。

针对点云无序稀疏的特性，学界发展出多种处理范式。

点集直接处理：PointNet（2017）用共享 MLP 对每点独立提取特征，再用 max pooling 聚合全局特征，天然满足置换不变性；PointNet++ 进一步引入分层 Set Abstraction 捕获局部结构
体素化方法：将点云离散化为三维体素网格（Voxel），再应用 3D 卷积（VoxelNet）或 2D 鸟瞰图卷积（PointPillars），便于工程部署
图神经网络（GNN）：将点云建模为图，用 DGCNN 等方法在动态图上做边卷积，捕获局部几何关系
Transformer 方法：Point Transformer 系列引入向量自注意力机制，Point Transformer V3 在大规模数据上实现 SOTA，展现强大扩展性

点云作为三维感知的核心数据结构，支撑多个关键 AI 应用场景。

点云与其他三维表示形式各有侧重，需根据任务选择合适格式。

点云 vs 体素（Voxel Grid）：体素有规则网格结构便于卷积，但内存消耗随分辨率立方增长；点云保留原始稀疏性，内存高效但需特殊算法
点云 vs 网格（Mesh）：网格含面片连接关系，适合渲染；点云无拓扑，更接近原始采集形态
点云 vs NeRF / 3D Gaussian Splatting：NeRF 用神经网络隐式表示连续场景；点云是显式离散表示，可直接测量距离，但渲染质量不如 NeRF
点云 vs 深度图：深度图为有序像素阵列（可反投影为点云），点云则为无序集合；深度图保留视角结构，处理更简单

使用点云时需警惕以下常见认知误区与实际限制。

点云处理从传统手工特征走向大规模深度学习，历经多个关键节点。

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 3 篇文章，帮助深入理解该术语。

本页内容为本站原创撰写；维基百科链接仅作延伸参考。