Recall（召回率）

召回率就是'找得全不全'——正样本里我能抓到多少，不是预测里有多少是对的。

亦作、亦称：召回率 · sensitivity · true positive rate · TPR · Sensitivity · True Positive Rate

召回率衡量模型「找得全不全」，是分类评估中与精确率并列的核心指标。在漏判代价高的场景（医疗、安全、搜索），召回率往往是首要优化目标。

概述

召回率（Recall）是分类任务中衡量模型「漏判」程度的指标，也称为敏感度（Sensitivity）或真正例率（True Positive Rate, TPR）。

核心问题：「在所有真实正样本中，模型找出了多少？」
公式：Recall = TP / (TP + FN)
取值范围：0 到 1，越高表示遗漏越少
直觉理解：如果测试集有 100 个患病样本，模型正确识别了 80 个，则召回率为 0.8
与精确率的区别：精确率（Precision）关注「预测为正的样本有多少真的是正」，召回率关注「真正的正样本有多少被找到」

工作原理

召回率基于 混淆矩阵（Confusion Matrix） 计算，混淆矩阵将预测结果分为四类。
-TP（True Positive）：真实为正，预测为正——正确命中
- FP（False Positive）：真实为负，预测为正——误报（误判）
-FN（False Negative）：真实为正，预测为负——漏报（漏判），召回率的关键分母
- TN（True Negative）：真实为负，预测为负——正确排除
-召回率计算：Recall = TP / (TP + FN)，FN 越大，召回率越低
- 阈值影响：降低分类阈值通常能提高召回率，但会同时增加 FP，降低精确率

精确率-召回率权衡与变体指标

召回率不能孤立看待，需与精确率结合，形成常用的综合评估体系。

Precision-Recall Trade-off：提高召回率往往以牺牲精确率为代价，反之亦然，需根据业务场景权衡
F1 分数：精确率与召回率的调和平均数，F1 = 2 × P × R / (P + R)，综合衡量两者
Fβ 分数：当 β > 1 时更重视召回率，β < 1 时更重视精确率，由 van Rijsbergen 1979 年提出
PR 曲线：以召回率为横轴、精确率为纵轴绘制，曲线下面积（AUC-PR）反映整体性能
宏平均/微平均召回率：多分类场景下对各类召回率取算术平均（宏）或加权平均（微）

应用场景

在漏判代价远高于误报代价的场景，召回率是首要优化目标。

医疗诊断：癌症、传染病筛查中，漏诊（FN）代价极高，需优先保证高召回率
反欺诈与安全：金融欺诈检测、网络入侵检测，漏掉一个真实攻击可能造成严重损失
信息检索与搜索：搜索引擎评估时，召回率衡量相关文档是否被检索出
NLP 评估：ROUGE 指标本质上是参考答案中 n-gram 的召回率，用于机器翻译、摘要评估
目标检测（CV）：检测所有目标实例时，高召回率确保漏检率低

局限与常见误区

召回率在实际使用中存在若干易被忽视的局限与误解。

误区一：召回率越高越好 — 一味追求高召回率会导致大量误报，精确率极低，实用价值下降（如将所有样本预测为正可获得 100% 召回率）
误区二：召回率等于准确率 — 准确率衡量所有预测的整体正确率，召回率仅关注正类，两者含义不同
误区三：忽略类别不均衡 — 在严重不均衡数据集上，准确率会失效，此时召回率等指标更能反映真实性能
局限：召回率本身不反映误报情况，必须结合精确率或 F1 综合分析
阈值敏感性：不同阈值下召回率变化显著，报告时需说明阈值设置

发展脉络

召回率的概念跨越信息检索与机器学习两大领域，经历了数十年的演化。

1950s-60s：信息检索研究中初步出现「相关文档覆盖率」的概念雏形
1979 年：C.J. van Rijsbergen 在《Information Retrieval》中系统定义 Recall 与 Precision，并提出 Fβ 指标框架
1992 年：Chinchor 在 MUC-4（第四届消息理解会议）中将 F-measure 引入自然语言处理评估
2000s：随机机器学习的兴起，召回率成为分类器评估标准套件（混淆矩阵、ROC 曲线、PR 曲线）的核心组成
2010s 至今：深度学习普及后，召回率广泛应用于目标检测（mAP 依赖召回率轴）、医疗 AI、NLP 基准评测等场景

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「召回率就是'找得全不全'——正样本里我能抓到多少，不是预测里有多少是对的。」
「召回率低就是漏判太多，比如癌症筛查没查出真正的患者，这比误报更危险。」
「召回率和精确率是个跷跷板：想找得越全，就越容易误报；想误报少，就可能漏掉更多。」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Recall」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

Recall（召回率）

概述

工作原理

精确率-召回率权衡与变体指标

应用场景

局限与常见误区

发展脉络

常见误解

相关术语

延伸阅读

模型评估与选择：交叉验证、AUC-ROC

AI 临床诊断评估：从哈佛急诊研究到诊断模型验证

NLP 评估指标：BLEU, ROUGE, METEOR

外部参考

概述

工作原理

精确率-召回率权衡与变体指标

应用场景

局限与常见误区

发展脉络

与相邻概念的区别

常见误解

相关术语

延伸阅读

模型评估与选择：交叉验证、AUC-ROC

AI 临床诊断评估：从哈佛急诊研究到诊断模型验证

NLP 评估指标：BLEU, ROUGE, METEOR

外部参考