Pandas 的 groupby / agg / merge 常用操作有哪些？

Question 1

Accepted Answer

groupby 把数据按键分组后接聚合：agg 可对多列指定多种函数并自定义输出列名，是最常用的分组统计入口。transform 与 agg 不同，它返回和原表等长的结果、会广播回每一行，特别适合算「组内占比」「用组均值填缺失」这类需要保留行粒度的场景。merge 则对应 SQL 的 JOIN，用 on 指定关联键、how 指定连接方式（left/inner/outer/right），语义与 SQL 一致。下面示例覆盖这三个核心操作。

Question 2

agg 和 transform 的区别是什么？什么时候用 transform？

Accepted Answer

agg 做聚合，每组返回一个标量、结果行数等于组数；transform 返回与输入等长的序列、把组内计算结果广播回每一行，结果行数等于原表行数。当你需要把组级统计「贴回」明细行时（如计算每行占组内总和的比例、用组均值/中位数填充该组缺失值、做组内标准化），就用 transform；只要汇总表就用 agg。

Question 3

Pandas 里如何实现 SQL 的 GROUP BY 后取每组 Top-N？

Accepted Answer

两种常用写法：sort_values 后 groupby().head(N)，如 df.sort_values('salary', ascending=False).groupby('dept_id').head(2) 取每部门薪资前 2；或用 groupby + rank：df['rk']=df.groupby('dept_id')['salary'].rank(method='first', ascending=False)，再 df[df.rk<=2]，对应 SQL 的 ROW_NUMBER() 套路。rank 的 method 参数控制并列处理（first/min/dense）。

Pandas 的 groupby / agg / merge 常用操作有哪些？

核心要点

标准回答

常见误区

追问

延伸学习