异常检测有哪些常用方法？

Question 1

异常检测有哪些常用方法？

Accepted Answer

问题特点 异常检测大多是无监督或半监督的：正常样本多、异常样本极少且形态多变，难以当成普通分类。选型主要看维度、数据分布和是否有标签。 主流方法 - 统计方法：z-score（偏离均值多少个标准差）、IQR（超出 1.5 倍四分位距），简单可解释，适合低维。 - 孤立森林：随机选特征与切分点构树，异常点几次切分就被孤立，平均路径越短越异常，适合高维、大数据。 - One-Class SVM：只用正常样本学习一个紧致边界，落在边界外即异常。 - 密度法 LOF：比较一个点与邻居的局部密度，密度明显低则为离群点。 - 自编码器：用正常数据训练，靠重构误差判异常，适合图像、高维复杂数据。 实践要点 要先做特征缩放；根据业务可承受的漏报/误报调阈值；有少量标签时用 Precision/Recall、PR-AUC 评估，而非准确率（异常类极不平衡）。

Question 2

孤立森林为什么对异常更敏感？

Accepted Answer

它随机选特征和切分点递归划分数据，异常点由于取值稀疏、远离主体，往往只需很少几次切分就能被单独隔离，因而在树中路径更短。对大量树取平均路径长度，路径越短异常分数越高。它无需假设数据分布，且在高维大数据上效率较好。

Question 3

自编码器做异常检测的原理和局限？

Accepted Answer

用正常样本训练自编码器压缩再重构，模型只学会重建正常模式；遇到异常样本重构误差显著增大，以此阈值判异常。局限在于：若训练集混入异常会污染模型；阈值难定；模型容量过大可能把异常也重构得很好，反而漏检。

异常检测有哪些常用方法？

核心要点

标准回答

常见误区

追问

延伸学习