线上事故复盘（Postmortem）应该怎么做？

Question 1

Accepted Answer

无指责是前提 Postmortem 的核心文化是 blameless：聚焦「系统为什么允许这个错误发生」，而不是「谁犯了错」。否则大家会隐瞒信息，复盘失去价值。 结构化复盘内容 一份合格的复盘应包含： - 事件摘要与影响（受影响用户数、时长、业务损失）； - 时间线（触发 → 检测 → 响应 → 恢复，标注各阶段耗时）； - 根因分析（用 5 Whys 层层追问，挖到系统性根因）； - 检测与恢复评估（为什么没更早发现、恢复为何慢）。 沉淀改进项 每条改进项要可执行、有负责人、有截止日期，并跟踪闭环。把经验沉淀为监控告警、预案、自动化和 checklist，让同类事故不再复发。 对 ML 系统的特殊点 ML 事故常因数据漂移、特征管道异常、上游分布变化导致，复盘要关注数据与模型监控是否覆盖、是否有自动降级与回滚。

Question 2

5 Whys 分析时如何避免停在表面原因？

Accepted Answer

每一层「为什么」都要指向系统/流程而非个人操作。例如「服务挂了→因为内存溢出→因为输入数据量异常→因为上游没做限流→因为缺乏输入校验和监控告警」。停止条件是追到可通过工程或流程改进消除的系统性根因，而不是「某人忘了」这类个人归因。

Question 3

ML 模型线上掉点但没报错，怎么复盘？

Accepted Answer

这类是「静默失败」，重点查可观测性盲区。复盘时核对：是否监控了数据分布漂移、特征缺失率、预测分布和业务指标；告警阈值是否合理；是否有训练-服务一致性校验。根因往往是上游数据变化或特征管道异常。改进项通常是补齐数据/模型监控、设置漂移告警与自动降级。

线上事故复盘（Postmortem）应该怎么做？

核心要点

标准回答

常见误区

追问

延伸学习