核心要点

  • TF(词频):词在当前文档出现越多,对该文档越重要

  • IDF(逆文档频率):词在越少的文档中出现,区分力越强、权重越高

  • TF-IDF = TF × IDF,凸显「本文常见、全局罕见」的词,压低「的、是」等停用词

  • 常用于关键词提取、文本检索打分与传统文本分类的特征

标准回答

核心思想

一个词对某篇文档是否重要,取决于两点:在这篇文档里出现得多不多,以及它在整个语料中是否普遍。TF-IDF 把这两点相乘。

两个因子

  • TF(Term Frequency):词 t 在文档 d 中的频率,越高代表越能代表该文档主题
  • IDF(Inverse Document Frequency):IDF = log(总文档数 / 含该词的文档数),词出现的文档越少,IDF 越大

二者相乘:TF-IDF = TF × IDF。

效果

像「的、是、和」这类几乎每篇都出现的词,IDF 极低,权重被压下去;而只在少数文档里高频出现的专有词会被放大,从而抓住区分性强的关键词。

应用与局限

广泛用于关键词抽取、检索排序、传统文本分类特征。局限是基于词袋、忽略语序与语义,无法识别同义词,现代检索常用稠密向量(embedding)语义匹配补足。

常见误区

⚠️ 常见踩坑

只记得 TF 忽略 IDF——单看词频会让停用词得高分;IDF 用的是「文档数」而非「总词频」,是文档级统计,别和 TF 的频率口径混淆。

追问

追问 1为什么 IDF 要取对数?

不取对数时,罕见词与常见词的文档频率比值可能相差几个数量级,会让权重被极端罕见词主导。取对数压缩这种动态范围,使权重增长平缓、数值更稳定,也更符合「信息量」的直觉(与信息论中 -log 概率一致)。

追问 2TF-IDF 与词向量(embedding)相比有何不足?

TF-IDF 是稀疏、高维、基于精确词匹配的表示,无法捕捉同义词和语义相似性,也忽略词序。embedding 把词映射到稠密低维空间,相近语义的词距离更近,支持语义检索。实践中可二者结合做混合检索

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。