F1 Score(F1 分数)

F1 就是把精确率和召回率合成一个数,两个都高 F1 才高,缺一个就拉低整体分

亦作、亦称:F1 分数 · F1-measure · F-score · F-measure · F1 · Fβ Score

F1 分数是精确率与召回率的调和平均值,是分类模型评估的核心指标之一。它在类别不平衡场景下比准确率更可靠,广泛应用于 NLP、信息检索与机器学习竞赛。

概述

F1 分数是分类任务中最广泛使用的综合评估指标之一,用于同时衡量模型的精确率(Precision)与召回率(Recall)。

  • 精确率:预测为正类的样本中,真正为正类的比例(TP / (TP + FP))
  • 召回率:所有实际正类中,被正确预测为正类的比例(TP / (TP + FN))
  • F1 分数:两者的调和平均,公式为 F1 = 2 × P × R / (P + R)
  • 取值范围为 [0, 1],越接近 1 表示模型综合性能越好
  • 当精确率和召回率均为 1 时,F1 = 1(完美分类);任一为 0 则 F1 = 0

工作原理

F1 分数基于混淆矩阵(Confusion Matrix)中的四个基本量推导而来。

  • TP(真正例):实际为正、预测也为正
  • FP(假正例):实际为负、预测为正(精确率的「分母误差项」)
  • FN(假负例):实际为正、预测为负(召回率的「分母误差项」)
  • 调和平均的意义:与算术平均不同,调和平均对两个极端值(一高一低)的惩罚更重,只有 P 和 R 都高,F1 才高
  • 例:P=0.9,R=0.1 → 算术平均 0.5,但 F1 = 0.18,更真实反映模型短板

变体:Fβ 分数与多分类扩展

F1 是 Fβ 分数族的一个特例,实际应用中可根据需求调整权重。

  • Fβ 通式:Fβ = (1 + β²) × P × R / (β² × P + R)
  • β > 1(如 F2):更重视召回率,适合漏检代价大的场景(如医疗筛查)
  • β < 1(如 F0.5):更重视精确率,适合误报代价大的场景(如垃圾邮件过滤)
  • Macro-F1:各类别 F1 的算术平均,对每类平等对待
  • Weighted-F1:按各类别样本量加权平均,适合不平衡多分类

应用场景

F1 分数在多种 AI 任务中被用作核心评估指标。

  • 命名实体识别(NER):精确识别实体边界与类型,精确率与召回率需同时保证
  • 文本分类与情感分析:尤其是类别分布不均匀时替代准确率
  • 信息检索:评估检索系统在返回相关文档上的综合能力
  • 目标检测(CV):结合 IoU 阈值后计算每类别 F1,再汇总为 mAP
  • 机器学习竞赛:Kaggle 等平台大量使用 F1 作为官方评分标准

与准确率的区别

准确率(Accuracy)在类别平衡时有效,但在不平衡场景下会产生误导。

  • 准确率缺陷示例:正类占 1%,模型全预测负类,准确率仍达 99%,但 F1 = 0
  • F1 的优势:直接关注正类预测质量,不受负类样本数量膨胀影响
  • 使用建议:类别平衡时两者均可;类别严重不平衡时优先使用 F1 或 AUC-ROC
  • 局限:F1 仅考虑正类(二分类),负类的精确率和召回率不在其中

局限与误区

F1 分数并非万能,使用时需注意以下常见误区。

  • 误区一:认为 F1 越高模型越好——F1 依赖正类定义,换个标签可能结果截然相反
  • 误区二:多分类直接平均各类 F1——应区分 Macro/Micro/Weighted 三种策略
  • 误区三:忽略阈值选择——F1 是在固定分类阈值下计算的,不同阈值得到不同 F1
  • 置信度缺失:F1 不反映模型预测的概率校准质量
  • 替代方案:需要考虑所有阈值时,用 AUC-PR(精确率-召回率曲线下面积)更全面

发展脉络

F1 分数的历史可追溯到信息检索领域,后逐步扩展至整个机器学习社区。

  • 1979 年:C. J. van Rijsbergen 在《Information Retrieval》第 2 版中提出 Fβ 有效性度量,定义 E = 1 − Fβ
  • 1990 年代:MUC(Message Understanding Conference)和 TREC 评测竞赛大规模采用 F1,推动其在 NLP 领域普及
  • 2000 年代:随着机器学习评测需求增长,F1 成为 scikit-learn、PyTorch 等框架内置指标
  • 2010 年代:深度学习时代,F1 继续作为 NER、关系抽取、目标检测等任务的标准评估量
  • 2023 年:ACM Computing Surveys 发表综述《A Review of the F-Measure》,系统梳理其历史、性质与批评

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「F1 就是把精确率和召回率合成一个数,两个都高 F1 才高,缺一个就拉低整体分」
  • 「类别严重不平衡的时候,不要只看准确率,F1 分数才是真正的考场」
  • 「F1 是调和平均,不是算术平均,所以一高一低也救不了——两个都得过关才行」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    命名实体识别 NER

    从 BIO 标注到 BERT-CRF,掌握信息抽取的核心技术

  2. 2

    文本分类:情感分析与主题分类

    从 TF-IDF 到深度学习,掌握 NLP 最基础的分类任务

  3. 3

    NLP 评估指标:BLEU, ROUGE, METEOR

    从 BLEU 到 BERTScore,掌握 NLP 任务的评估体系

外部参考

维基百科:查看「F1 Score」词条

本页内容为本站原创撰写;维基百科链接仅作延伸参考。