Fairness（公平性）

AI 不能歧视某些人

亦作、亦称：公平性

公平性（Fairness）是 AI 伦理的核心议题之一，要求机器学习模型在涉及不同群体（如种族、性别、年龄）时，不产生系统性的歧视或偏袒。它既是技术问题，也是社会价值判断问题——目前存在数十种互不兼容的量化定义，实践中必须针对具体场景明确选择。

概述

背景与问题根源

AI 公平性问题的爆发性关注源于现实系统被发现对特定群体产生系统性不利结果。

2016 年：ProPublica 调查报告揭露，美国法院广泛使用的累犯风险评估工具 COMPAS 对黑人被告的假阳性率（约 45%）约为白人被告（约 23%）的两倍，引发全球关注。
训练数据偏差：历史数据若已包含歧视性模式，模型会将其「学习」并放大，而非自动纠正。
代理变量（Proxy Variable）：即使不直接使用受保护属性，邮政编码、消费行为等变量仍可间接反映种族或阶层信息，造成间接歧视。
反馈循环：有偏预测影响现实决策（如警力部署），产生新的偏斜数据，形成自我强化的恶性循环。

公平性的主要分类

学界将公平性分为群体公平性与个体公平性两大主要范式，另有因果视角作为补充。

群体公平性（Group Fairness）：以统计指标衡量不同受保护群体之间的结果差异，是目前最常用的技术路径。
个体公平性（Individual Fairness）：要求「相似的个体得到相似的对待」，由 Dwork 等人于 2012 年正式提出，依赖对「相似性」的精确定义，实践难度较高。
因果公平性（Causal Fairness）：借助因果图判断受保护属性是否通过因果路径影响预测结果，理论更为严格。
三种视角侧重不同，不可互相替代，实际系统往往需要结合使用并明确取舍理由。

常见量化指标

群体公平性通过多个统计准则进行量化，各准则针对不同的决策场景和价值取向。

人口统计平等（Demographic Parity）：各群体获得正向预测的概率应相等，即 P(Ŷ=1|A=0) = P(Ŷ=1|A=1)，不考虑基率差异。
机会均等（Equal Opportunity）：各群体在真实正例中的真阳性率相等；由 Hardt 等人于 2016 年提出。
均等化胜算（Equalized Odds）：同时要求真阳性率与假阳性率在各群体间均相等，是机会均等的加强版。
校准公平（Calibration / Predictive Parity）：相同预测分值下各群体的实际发生率相等；与均等化胜算在基率不同时存在数学上的不可兼容关系。
现实中每种指标都对应一种社会公平观，选择哪种指标本身即是价值判断。

不可能定理：公平性准则的内在冲突

多个主流公平性准则在数学上存在相互不可兼容的关系，这是该领域的基础性理论结果。

Chouldechova（2017）证明：当不同群体的基率（真实发生率）不同时，校准公平与均等化胜算无法同时满足。
Kleinberg、Mullainathan & Raghavan（2016）：从另一角度给出了类似的不兼容性证明。
根本原因在于：这些指标背后隐含了不同甚至相互矛盾的社会正义观念（机会平等 vs. 结果平等）。
实践含义：系统设计者必须明确说明为何选择某一准则，声称同时实现「所有公平性」在数学上通常是不可能的。

公平性干预方法

针对偏见的技术干预可在机器学习流程的三个阶段介入。

预处理（Pre-processing）：对训练数据进行去偏，如重采样、重加权或公平表示学习（Fair Representation Learning）。
训练中约束（In-processing）：在训练目标中加入公平性正则项或约束，如对抗去偏（Adversarial Debiasing）。
后处理（Post-processing）：在模型输出后根据群体调整决策阈值以平衡错误率，如 Hardt 等人提出的阈值调整方法。
常用工具库：Microsoft Fairlearn、IBM AI Fairness 360（AIF360） 是目前最常用的开源评测与去偏工具。
没有一种方法适用于所有场景，需根据任务目标和法律合规要求选择。

发展脉络

公平性研究随机器学习商业化在 2010 年代中期快速兴起，并逐步形成独立学科方向。

2012：Dwork 等人发表「Fairness Through Awareness」，正式提出个体公平性框架。
2016：ProPublica「Machine Bias」报告曝光 COMPAS 偏见问题；Hardt 等人提出均等化胜算概念（NeurIPS 2016）；Chouldechova 同期给出不可能性结果。
2018：MIT 媒体实验室 Joy Buolamwini 等人发表 Gender Shades 研究，揭示商业人脸识别系统对深肤色女性的错误率远高于浅肤色男性；FAccT（Fairness, Accountability, and Transparency）会议正式创立。
2024：欧盟《人工智能法案》（EU AI Act）正式生效，将招聘、信贷、司法等高风险场景纳入强制公平性合规框架。
当下：大语言模型（LLM）的涌现使公平性问题延伸至文本生成中的刻板印象、多语言不均衡等新维度。

常见误区

实践中存在若干对公平性的常见误解，可能导致「表面合规、实质偏歧」的结果。

去除受保护属性字段并不等于公平：模型可从代理变量（如邮编、姓名）重建受保护属性，此现象称为「代理偏差」，有时也被称为「公平性清洗（Fairness Washing）」。
整体准确率掩盖群体差异：辛普森悖论式的统计现象导致总体指标优秀而特定亚群体指标极差。
单一指标并不全面：满足人口统计平等可能同时违反均等化胜算，需明确场景再选定指标。
泛化性缺失：针对特定数据集调优的公平性不保证在新分布下依然成立，分布偏移后偏差可能重新出现。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「AI 不能歧视某些人」
「不同群体效果要相当」
「合规必查项」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Fairness」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

概述

背景与问题根源

AI 公平性问题的爆发性关注源于现实系统被发现对特定群体产生系统性不利结果。

2016 年：ProPublica 调查报告揭露，美国法院广泛使用的累犯风险评估工具 COMPAS 对黑人被告的假阳性率（约 45%）约为白人被告（约 23%）的两倍，引发全球关注。
训练数据偏差：历史数据若已包含歧视性模式，模型会将其「学习」并放大，而非自动纠正。
代理变量（Proxy Variable）：即使不直接使用受保护属性，邮政编码、消费行为等变量仍可间接反映种族或阶层信息，造成间接歧视。
反馈循环：有偏预测影响现实决策（如警力部署），产生新的偏斜数据，形成自我强化的恶性循环。

公平性的主要分类

学界将公平性分为群体公平性与个体公平性两大主要范式，另有因果视角作为补充。

群体公平性（Group Fairness）：以统计指标衡量不同受保护群体之间的结果差异，是目前最常用的技术路径。
个体公平性（Individual Fairness）：要求「相似的个体得到相似的对待」，由 Dwork 等人于 2012 年正式提出，依赖对「相似性」的精确定义，实践难度较高。
因果公平性（Causal Fairness）：借助因果图判断受保护属性是否通过因果路径影响预测结果，理论更为严格。
三种视角侧重不同，不可互相替代，实际系统往往需要结合使用并明确取舍理由。

常见量化指标

群体公平性通过多个统计准则进行量化，各准则针对不同的决策场景和价值取向。

人口统计平等（Demographic Parity）：各群体获得正向预测的概率应相等，即 P(Ŷ=1|A=0) = P(Ŷ=1|A=1)，不考虑基率差异。
机会均等（Equal Opportunity）：各群体在真实正例中的真阳性率相等；由 Hardt 等人于 2016 年提出。
均等化胜算（Equalized Odds）：同时要求真阳性率与假阳性率在各群体间均相等，是机会均等的加强版。
校准公平（Calibration / Predictive Parity）：相同预测分值下各群体的实际发生率相等；与均等化胜算在基率不同时存在数学上的不可兼容关系。
现实中每种指标都对应一种社会公平观，选择哪种指标本身即是价值判断。

不可能定理：公平性准则的内在冲突

多个主流公平性准则在数学上存在相互不可兼容的关系，这是该领域的基础性理论结果。

Chouldechova（2017）证明：当不同群体的基率（真实发生率）不同时，校准公平与均等化胜算无法同时满足。
Kleinberg、Mullainathan & Raghavan（2016）：从另一角度给出了类似的不兼容性证明。
根本原因在于：这些指标背后隐含了不同甚至相互矛盾的社会正义观念（机会平等 vs. 结果平等）。
实践含义：系统设计者必须明确说明为何选择某一准则，声称同时实现「所有公平性」在数学上通常是不可能的。

公平性干预方法

针对偏见的技术干预可在机器学习流程的三个阶段介入。

预处理（Pre-processing）：对训练数据进行去偏，如重采样、重加权或公平表示学习（Fair Representation Learning）。
训练中约束（In-processing）：在训练目标中加入公平性正则项或约束，如对抗去偏（Adversarial Debiasing）。
后处理（Post-processing）：在模型输出后根据群体调整决策阈值以平衡错误率，如 Hardt 等人提出的阈值调整方法。
常用工具库：Microsoft Fairlearn、IBM AI Fairness 360（AIF360） 是目前最常用的开源评测与去偏工具。
没有一种方法适用于所有场景，需根据任务目标和法律合规要求选择。

发展脉络

公平性研究随机器学习商业化在 2010 年代中期快速兴起，并逐步形成独立学科方向。

2012：Dwork 等人发表「Fairness Through Awareness」，正式提出个体公平性框架。
2016：ProPublica「Machine Bias」报告曝光 COMPAS 偏见问题；Hardt 等人提出均等化胜算概念（NeurIPS 2016）；Chouldechova 同期给出不可能性结果。
2018：MIT 媒体实验室 Joy Buolamwini 等人发表 Gender Shades 研究，揭示商业人脸识别系统对深肤色女性的错误率远高于浅肤色男性；FAccT（Fairness, Accountability, and Transparency）会议正式创立。
2024：欧盟《人工智能法案》（EU AI Act）正式生效，将招聘、信贷、司法等高风险场景纳入强制公平性合规框架。
当下：大语言模型（LLM）的涌现使公平性问题延伸至文本生成中的刻板印象、多语言不均衡等新维度。

常见误区

实践中存在若干对公平性的常见误解，可能导致「表面合规、实质偏歧」的结果。

去除受保护属性字段并不等于公平：模型可从代理变量（如邮编、姓名）重建受保护属性，此现象称为「代理偏差」，有时也被称为「公平性清洗（Fairness Washing）」。
整体准确率掩盖群体差异：辛普森悖论式的统计现象导致总体指标优秀而特定亚群体指标极差。
单一指标并不全面：满足人口统计平等可能同时违反均等化胜算，需明确场景再选定指标。
泛化性缺失：针对特定数据集调优的公平性不保证在新分布下依然成立，分布偏移后偏差可能重新出现。

Fairness（公平性）

概述

背景与问题根源

公平性的主要分类

常见量化指标

不可能定理：公平性准则的内在冲突

公平性干预方法

发展脉络

常见误区

常见误解

相关术语

延伸阅读

AI 对齐（二）：RLHF 与伦理框架

AI Agent 金融合规：监管框架、风险管理与行业实践

AI 安全评估基准与标准化：从碎片化到统一的演进之路

外部参考

觉得内容有帮助？请站长喝杯咖啡 ☕

Fairness（公平性）

概述

背景与问题根源

公平性的主要分类

常见量化指标

不可能定理：公平性准则的内在冲突

公平性干预方法

发展脉络

常见误区

常见误解

相关术语

延伸阅读

AI 对齐（二）：RLHF 与伦理框架

AI Agent 金融合规：监管框架、风险管理与行业实践

AI 安全评估基准与标准化：从碎片化到统一的演进之路

外部参考