核心要点
TF(词频):词在当前文档出现越多,对该文档越重要
IDF(逆文档频率):词在越少的文档中出现,区分力越强、权重越高
TF-IDF = TF × IDF,凸显「本文常见、全局罕见」的词,压低「的、是」等停用词
常用于关键词提取、文本检索打分与传统文本分类的特征
标准回答
核心思想
一个词对某篇文档是否重要,取决于两点:在这篇文档里出现得多不多,以及它在整个语料中是否普遍。TF-IDF 把这两点相乘。
两个因子
- TF(Term Frequency):词 t 在文档 d 中的频率,越高代表越能代表该文档主题
- IDF(Inverse Document Frequency):IDF = log(总文档数 / 含该词的文档数),词出现的文档越少,IDF 越大
二者相乘:TF-IDF = TF × IDF。
效果
像「的、是、和」这类几乎每篇都出现的词,IDF 极低,权重被压下去;而只在少数文档里高频出现的专有词会被放大,从而抓住区分性强的关键词。
应用与局限
广泛用于关键词抽取、检索排序、传统文本分类特征。局限是基于词袋、忽略语序与语义,无法识别同义词,现代检索常用稠密向量(embedding)语义匹配补足。
常见误区
⚠️ 常见踩坑
只记得 TF 忽略 IDF——单看词频会让停用词得高分;IDF 用的是「文档数」而非「总词频」,是文档级统计,别和 TF 的频率口径混淆。
追问
追问 1:为什么 IDF 要取对数?
不取对数时,罕见词与常见词的文档频率比值可能相差几个数量级,会让权重被极端罕见词主导。取对数压缩这种动态范围,使权重增长平缓、数值更稳定,也更符合「信息量」的直觉(与信息论中 -log 概率一致)。
追问 2:TF-IDF 与词向量(embedding)相比有何不足?
TF-IDF 是稀疏、高维、基于精确词匹配的表示,无法捕捉同义词和语义相似性,也忽略词序。embedding 把词映射到稠密低维空间,相近语义的词距离更近,支持语义检索。实践中可二者结合做混合检索。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。