F1 Score(F1 分数)
F1 就是把精确率和召回率合成一个数,两个都高 F1 才高,缺一个就拉低整体分
亦作、亦称:F1 分数 · F1-measure · F-score · F-measure · F1 · Fβ Score
F1 分数是精确率与召回率的调和平均值,是分类模型评估的核心指标之一。它在类别不平衡场景下比准确率更可靠,广泛应用于 NLP、信息检索与机器学习竞赛。
概述
F1 分数是分类任务中最广泛使用的综合评估指标之一,用于同时衡量模型的精确率(Precision)与召回率(Recall)。
- 精确率:预测为正类的样本中,真正为正类的比例(TP / (TP + FP))
- 召回率:所有实际正类中,被正确预测为正类的比例(TP / (TP + FN))
- F1 分数:两者的调和平均,公式为 F1 = 2 × P × R / (P + R)
- 取值范围为 [0, 1],越接近 1 表示模型综合性能越好
- 当精确率和召回率均为 1 时,F1 = 1(完美分类);任一为 0 则 F1 = 0
工作原理
F1 分数基于混淆矩阵(Confusion Matrix)中的四个基本量推导而来。
- TP(真正例):实际为正、预测也为正
- FP(假正例):实际为负、预测为正(精确率的「分母误差项」)
- FN(假负例):实际为正、预测为负(召回率的「分母误差项」)
- 调和平均的意义:与算术平均不同,调和平均对两个极端值(一高一低)的惩罚更重,只有 P 和 R 都高,F1 才高
- 例:P=0.9,R=0.1 → 算术平均 0.5,但 F1 = 0.18,更真实反映模型短板
变体:Fβ 分数与多分类扩展
F1 是 Fβ 分数族的一个特例,实际应用中可根据需求调整权重。
- Fβ 通式:Fβ = (1 + β²) × P × R / (β² × P + R)
- β > 1(如 F2):更重视召回率,适合漏检代价大的场景(如医疗筛查)
- β < 1(如 F0.5):更重视精确率,适合误报代价大的场景(如垃圾邮件过滤)
- Macro-F1:各类别 F1 的算术平均,对每类平等对待
- Weighted-F1:按各类别样本量加权平均,适合不平衡多分类
应用场景
F1 分数在多种 AI 任务中被用作核心评估指标。
- 命名实体识别(NER):精确识别实体边界与类型,精确率与召回率需同时保证
- 文本分类与情感分析:尤其是类别分布不均匀时替代准确率
- 信息检索:评估检索系统在返回相关文档上的综合能力
- 目标检测(CV):结合 IoU 阈值后计算每类别 F1,再汇总为 mAP
- 机器学习竞赛:Kaggle 等平台大量使用 F1 作为官方评分标准
与准确率的区别
准确率(Accuracy)在类别平衡时有效,但在不平衡场景下会产生误导。
- 准确率缺陷示例:正类占 1%,模型全预测负类,准确率仍达 99%,但 F1 = 0
- F1 的优势:直接关注正类预测质量,不受负类样本数量膨胀影响
- 使用建议:类别平衡时两者均可;类别严重不平衡时优先使用 F1 或 AUC-ROC
- 局限:F1 仅考虑正类(二分类),负类的精确率和召回率不在其中
局限与误区
F1 分数并非万能,使用时需注意以下常见误区。
- 误区一:认为 F1 越高模型越好——F1 依赖正类定义,换个标签可能结果截然相反
- 误区二:多分类直接平均各类 F1——应区分 Macro/Micro/Weighted 三种策略
- 误区三:忽略阈值选择——F1 是在固定分类阈值下计算的,不同阈值得到不同 F1
- 置信度缺失:F1 不反映模型预测的概率校准质量
- 替代方案:需要考虑所有阈值时,用 AUC-PR(精确率-召回率曲线下面积)更全面
发展脉络
F1 分数的历史可追溯到信息检索领域,后逐步扩展至整个机器学习社区。
- 1979 年:C. J. van Rijsbergen 在《Information Retrieval》第 2 版中提出 Fβ 有效性度量,定义 E = 1 − Fβ
- 1990 年代:MUC(Message Understanding Conference)和 TREC 评测竞赛大规模采用 F1,推动其在 NLP 领域普及
- 2000 年代:随着机器学习评测需求增长,F1 成为 scikit-learn、PyTorch 等框架内置指标
- 2010 年代:深度学习时代,F1 继续作为 NER、关系抽取、目标检测等任务的标准评估量
- 2023 年:ACM Computing Surveys 发表综述《A Review of the F-Measure》,系统梳理其历史、性质与批评
常见误解
日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。
- 「F1 就是把精确率和召回率合成一个数,两个都高 F1 才高,缺一个就拉低整体分」
- 「类别严重不平衡的时候,不要只看准确率,F1 分数才是真正的考场」
- 「F1 是调和平均,不是算术平均,所以一高一低也救不了——两个都得过关才行」
相关术语
和本术语关联紧密的其他词条,便于串联理解。
延伸阅读
从知识库精选 3 篇文章,帮助深入理解该术语。
外部参考
维基百科:查看「F1 Score」词条本页内容为本站原创撰写;维基百科链接仅作延伸参考。