TF-IDF 如何衡量一个词的重要性？

Question 1

TF-IDF 如何衡量一个词的重要性？

Accepted Answer

核心思想 一个词对某篇文档是否重要，取决于两点：在这篇文档里出现得多不多，以及它在整个语料中是否普遍。TF-IDF 把这两点相乘。 两个因子 - TF（Term Frequency）：词 t 在文档 d 中的频率，越高代表越能代表该文档主题 - IDF（Inverse Document Frequency）：IDF = log(总文档数 / 含该词的文档数)，词出现的文档越少，IDF 越大 二者相乘：TF-IDF = TF × IDF。 效果 像「的、是、和」这类几乎每篇都出现的词，IDF 极低，权重被压下去；而只在少数文档里高频出现的专有词会被放大，从而抓住区分性强的关键词。 应用与局限 广泛用于关键词抽取、检索排序、传统文本分类特征。局限是基于词袋、忽略语序与语义，无法识别同义词，现代检索常用稠密向量（embedding）语义匹配补足。

Question 2

为什么 IDF 要取对数？

Accepted Answer

不取对数时，罕见词与常见词的文档频率比值可能相差几个数量级，会让权重被极端罕见词主导。取对数压缩这种动态范围，使权重增长平缓、数值更稳定，也更符合「信息量」的直觉（与信息论中 -log 概率一致）。

Question 3

TF-IDF 与词向量（embedding）相比有何不足？

Accepted Answer

TF-IDF 是稀疏、高维、基于精确词匹配的表示，无法捕捉同义词和语义相似性，也忽略词序。embedding 把词映射到稠密低维空间，相近语义的词距离更近，支持语义检索。实践中可二者结合做混合检索。

TF-IDF 如何衡量一个词的重要性？

核心要点

标准回答

常见误区

追问

延伸学习