K-means 聚类如何工作？有哪些局限？

Question 1

Accepted Answer

算法流程 K-means 是一种基于距离的无监督聚类，目标是最小化簇内平方误差（SSE）。流程： 1. 随机选取 k 个初始质心； 2. 分配：把每个样本划到欧氏距离最近的质心； 3. 更新：用各簇样本的均值作为新质心； 4. 重复 2-3 直到质心不再变化或达到迭代上限。 它本质是对 SSE 做坐标下降，保证收敛，但只收敛到局部最优。 局限 - 需人为指定 k；结果对初始质心敏感，故用 k-means++ 让初始点尽量分散； - 对特征量纲敏感，须先标准化； - 基于均值与欧氏距离，假设簇是球形、大小相近，对非凸簇、不同密度或离群点效果差； - 离群点会显著拉偏质心。

Question 2

k-means++ 解决了什么问题？

Accepted Answer

普通随机初始化容易让多个质心落在同一簇，导致收敛到差的局部最优。k-means++ 按与已选质心距离的平方为概率依次挑初始点，使其分散，显著降低 SSE 并加快收敛。

Question 3

如何选择 k？

Accepted Answer

常用肘部法（画 SSE 随 k 的曲线，找下降趋缓的拐点）和轮廓系数（衡量簇内紧凑与簇间分离，取最大值对应的 k）。也可结合业务先验或 Gap Statistic。

Question 4

K-means 和 DBSCAN 有何区别？

Accepted Answer

K-means 需指定 k、找球形簇、对离群点敏感；DBSCAN 基于密度，无需指定簇数，能发现任意形状簇并天然识别噪声点，但对密度差异大的数据和参数 eps 较敏感。

K-means 聚类如何工作？有哪些局限？

核心要点

标准回答

常见误区

追问

延伸学习