如何用 SQL 计算次日 / 7 日留存率？

Question 1

Accepted Answer

留存率必须以用户的首次活跃日为基准对齐。先按用户聚合求出 first_day，再把活跃明细表自连接回来，用日期差判断该用户在首日之后第 N 天是否还有活跃记录。分子是「首日活跃且第 N 日回访」的去重用户数，分母是「首日活跃」的去重用户数。次日留存对应 datediff=1，7 日留存按业务口径取 datediff=6 或 7，面试时要主动说明口径。

Question 2

如果数据量很大，自连接很慢，有什么优化思路？

Accepted Answer

可改用 EXISTS 半连接避免行放大：对每个首日用户判断 EXISTS(SELECT 1 FROM activity WHERE user_id=f.user_id AND active_date=DATE_ADD(first_day, INTERVAL 1 DAY)) 即可，命中即停、不展开。也可预先按用户+日期建活跃位图（bitmap）或对 user_id、active_date 建联合索引；离线场景常用每日全量活跃表打标后按 cohort 汇总，避免明细自连接。

Question 3

「7 日留存率」和「7 日内留存率」有什么区别？

Accepted Answer

「第 7 日留存」是精确第 7 天（datediff=7）当天活跃；「7 日内留存」(unbounded/滚动) 通常指首日之后 7 天内任意一天回访过即算留存，条件改为 DATEDIFF BETWEEN 1 AND 7。两者口径差异很大，面试和实际取数前必须先与业务确认定义，否则结论会偏差明显。

如何用 SQL 计算次日 / 7 日留存率？

核心要点

标准回答

常见误区

追问

延伸学习