F1 Score（F1 分数）

F1 就是把精确率和召回率合成一个数，两个都高 F1 才高，缺一个就拉低整体分

亦作、亦称：F1 分数 · F1-measure · F-score · F-measure · F1 · Fβ Score

F1 分数是精确率与召回率的调和平均值，是分类模型评估的核心指标之一。它在类别不平衡场景下比准确率更可靠，广泛应用于 NLP、信息检索与机器学习竞赛。

概述

F1 分数是分类任务中最广泛使用的综合评估指标之一，用于同时衡量模型的精确率（Precision）与召回率（Recall）。

精确率：预测为正类的样本中，真正为正类的比例（TP / (TP + FP)）
召回率：所有实际正类中，被正确预测为正类的比例（TP / (TP + FN)）
F1 分数：两者的调和平均，公式为 F1 = 2 × P × R / (P + R)
取值范围为 [0, 1]，越接近 1 表示模型综合性能越好
当精确率和召回率均为 1 时，F1 = 1（完美分类）；任一为 0 则 F1 = 0

工作原理

F1 分数基于混淆矩阵（Confusion Matrix）中的四个基本量推导而来。

TP（真正例）：实际为正、预测也为正
FP（假正例）：实际为负、预测为正（精确率的「分母误差项」）
FN（假负例）：实际为正、预测为负（召回率的「分母误差项」）
调和平均的意义：与算术平均不同，调和平均对两个极端值（一高一低）的惩罚更重，只有 P 和 R 都高，F1 才高
例：P=0.9，R=0.1 → 算术平均 0.5，但 F1 = 0.18，更真实反映模型短板

变体：Fβ 分数与多分类扩展

F1 是 Fβ 分数族的一个特例，实际应用中可根据需求调整权重。

Fβ 通式：Fβ = (1 + β²) × P × R / (β² × P + R)
β > 1（如 F2）：更重视召回率，适合漏检代价大的场景（如医疗筛查）
β < 1（如 F0.5）：更重视精确率，适合误报代价大的场景（如垃圾邮件过滤）
Macro-F1：各类别 F1 的算术平均，对每类平等对待
Weighted-F1：按各类别样本量加权平均，适合不平衡多分类

应用场景

F1 分数在多种 AI 任务中被用作核心评估指标。

命名实体识别（NER）：精确识别实体边界与类型，精确率与召回率需同时保证
文本分类与情感分析：尤其是类别分布不均匀时替代准确率
信息检索：评估检索系统在返回相关文档上的综合能力
目标检测（CV）：结合 IoU 阈值后计算每类别 F1，再汇总为 mAP
机器学习竞赛：Kaggle 等平台大量使用 F1 作为官方评分标准

与准确率的区别

准确率（Accuracy）在类别平衡时有效，但在不平衡场景下会产生误导。

准确率缺陷示例：正类占 1%，模型全预测负类，准确率仍达 99%，但 F1 = 0
F1 的优势：直接关注正类预测质量，不受负类样本数量膨胀影响
使用建议：类别平衡时两者均可；类别严重不平衡时优先使用 F1 或 AUC-ROC
局限：F1 仅考虑正类（二分类），负类的精确率和召回率不在其中

局限与误区

F1 分数并非万能，使用时需注意以下常见误区。

误区一：认为 F1 越高模型越好——F1 依赖正类定义，换个标签可能结果截然相反
误区二：多分类直接平均各类 F1——应区分 Macro/Micro/Weighted 三种策略
误区三：忽略阈值选择——F1 是在固定分类阈值下计算的，不同阈值得到不同 F1
置信度缺失：F1 不反映模型预测的概率校准质量
替代方案：需要考虑所有阈值时，用 AUC-PR（精确率-召回率曲线下面积）更全面

发展脉络

F1 分数的历史可追溯到信息检索领域，后逐步扩展至整个机器学习社区。

1979 年：C. J. van Rijsbergen 在《Information Retrieval》第 2 版中提出 Fβ 有效性度量，定义 E = 1 − Fβ
1990 年代：MUC（Message Understanding Conference）和 TREC 评测竞赛大规模采用 F1，推动其在 NLP 领域普及
2000 年代：随着机器学习评测需求增长，F1 成为 scikit-learn、PyTorch 等框架内置指标
2010 年代：深度学习时代，F1 继续作为 NER、关系抽取、目标检测等任务的标准评估量
2023 年：ACM Computing Surveys 发表综述《A Review of the F-Measure》，系统梳理其历史、性质与批评

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「F1 就是把精确率和召回率合成一个数，两个都高 F1 才高，缺一个就拉低整体分」
「类别严重不平衡的时候，不要只看准确率，F1 分数才是真正的考场」
「F1 是调和平均，不是算术平均，所以一高一低也救不了——两个都得过关才行」

相关术语

和本术语关联紧密的其他词条，便于串联理解。

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「F1 Score」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。