如何设计实时欺诈 / 异常检测系统？

Question 1

如何设计实时欺诈 / 异常检测系统？

Accepted Answer

需求与指标 毫秒级在线判定一笔交易/行为是否欺诈。正负样本极度不平衡（欺诈可能千分之一），accuracy 无意义，用召回率、精确率、PR-AUC、固定误报率下的召回。核心权衡是漏判（资损）vs 误判（伤害正常用户）。 整体架构 请求 → 实时特征计算 → 规则引擎 + 模型打分 → 决策（放行/拦截/人工复核）→ 反馈回流。要求低延迟、高可用。 特征 实时特征是关键：滑动窗口聚合（近 1 分钟/1 小时交易次数、金额）、设备/IP/地理关联、行为序列突变；图特征刻画团伙（同设备多账号、资金环路），用 GNN 或图统计量。 模型与规则 规则引擎处理已知强模式（黑名单、速度限制），可解释、低延迟、可秒级上线；模型（GBDT/DNN/图模型）覆盖未知与复杂模式。两者融合，规则兜底、模型补充。 不平衡处理 过采样（SMOTE）/欠采样、代价敏感学习（提高漏判惩罚）、focal loss、异常检测（无监督，应对无标签新型欺诈）。 评估与上线 离线 PR-AUC + 固定误报下召回，按业务定阈值；线上灰度，监控拦截率、误报投诉、资损，反馈样本回流持续迭代对抗演化。

Question 2

极度类别不平衡有哪些处理手段？

Accepted Answer

数据层面：欠采样多数类、过采样少数类（SMOTE 合成）；算法层面：代价敏感学习提高漏判惩罚、focal loss 聚焦难样本；评估层面：用 PR-AUC、召回@固定误报代替 accuracy/AUC。无标签新型欺诈则配合无监督异常检测（孤立森林、自编码器）。

Question 3

为什么要引入图特征，怎么用？

Accepted Answer

欺诈常是团伙作案，单点特征看不出，但在「账号-设备-IP-资金」构成的图上会暴露异常稠密子图、环路、共享实体。可提取图统计量（度、聚类系数、社区）作为特征，或直接用 GNN 学习节点表示，识别关联团伙，比孤立看单笔交易强得多。

Question 4

召回和误报怎么权衡，阈值怎么定？

Accepted Answer

这是业务决策：漏判带来直接资损，误判拦截正常用户带来体验损失和投诉。一般固定可接受的误报率（如复核人力/客诉上限），在该约束下最大化召回，并对高风险用人工复核兜底。不同业务（支付 vs 内容）资损与体验权重不同，阈值需分场景设定并随对抗演化动态调整。

如何设计实时欺诈 / 异常检测系统？

核心要点

标准回答

常见误区

追问

延伸学习