核心要点

  • 先识别敏感属性(性别、种族等),再用群体公平指标量化不同群体间的差异。

  • 常用指标:人口平等(demographic parity)看正例率,机会均等(equalized odds)看真/假阳率。

  • 缓解分三阶段:预处理(重加权/重采样)、训练中(公平约束)、后处理(调整阈值/输出)。

  • 公平与准确率常此消彼长,需结合场景明确选哪种公平定义并接受相应权衡。

标准回答

偏见来源

不公平多源于数据:历史偏见、样本不均衡、标注偏差,使模型在不同群体上表现系统性差异,并可能放大已有歧视。

度量(群体公平指标)

  • 人口平等(Demographic Parity):各群体获得正例预测的比例应相近。
  • 机会均等(Equalized Odds):各群体的真阳率与假阳率应相近,对「该被识别的人」一视同仁。

不同指标在数学上往往无法同时满足,需按场景取舍。

缓解手段(三阶段)

  • 预处理:重加权、重采样、去偏特征,修正数据分布。
  • 训练中:在目标函数里加入公平性约束或正则项。
  • 后处理:对已训练模型按群体调整决策阈值或校准输出。

关键权衡

提升公平常以损失整体准确率为代价(公平-准确率权衡);且不同公平定义彼此冲突,无法全都满足。应结合业务、法律与伦理语境,先明确「要哪种公平」,再选指标与缓解方法,并持续审计。

常见误区

⚠️ 常见踩坑

别以为「训练时不输入种族/性别就公平了」——其他特征(邮编、姓名、消费习惯)会作为代理变量泄露敏感信息。盲删敏感属性反而让偏见更隐蔽、更难度量,应显式度量并针对性缓解。

追问

追问 1人口平等和机会均等有何区别?

人口平等要求各群体获正例预测的比例相近,不看真实标签;机会均等以真实标签为条件,要求各群体真阳率/假阳率相近。前者关注结果分布,后者关注「对合格者的识别一致性」,两者常无法同时满足。

追问 2为什么多个公平指标不能同时满足?

在基准率(各群体正例真实比例)不同时,可证明人口平等、机会均等、校准等指标在数学上互相冲突,不存在同时满足全部的非平凡解。因此必须结合场景选定优先满足的公平定义,而非追求“全公平”。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。