核心要点

  • Word2Vec 是静态向量:「bank」无论银行还是河岸都是同一个向量,无法消歧多义词

  • Transformer Embedding 是上下文动态向量:同一词随句子不同而向量不同

  • Word2Vec 靠局部共现(CBOW/Skip-gram)学习,Transformer 靠多层自注意力编码全句

  • 现代检索/RAG 用 sentence-transformersLLM 取句向量,效果远超平均 Word2Vec

简要回答

Word2Vec 预训练固定词表向量,无法处理多义词;BERT/GPT 的 Embedding 随上下文变化,语义表示更精准,是现代 NLP 基础。

标准回答

Word2Vec(2013)

  • CBOW/Skip-gram 在词共现统计上学习固定词向量
  • 静态:「bank」无论银行还是河岸都是同一个向量,无法消歧
  • 维度通常 100-300,训练快、轻量

Transformer Embedding

  • token 经多层自注意力编码,得到上下文相关表示
  • 同一词在不同句子中向量不同,天然处理多义
  • 维度更大(隐藏层 768-4096+),需 GPU,但语义更精准

实践选型

  • 关键词匹配、轻量场景仍可用 Word2Vec/FastText
  • 现代检索与 RAG 普遍用 sentence-transformers 或 LLM 取句向量做文档/查询 Embedding,效果远优于对 Word2Vec 词向量取平均

常见误区

⚠️ 常见踩坑

把上下文 Embedding 当成「更高维的 Word2Vec」——它的关键差异是同词随上下文变化而非维度;做句子相似度时直接对 Word2Vec 词向量取平均,会丢失词序与语义,远不如专门训练的句向量模型(sentence-transformers)。

追问

追问 1ELMo 的地位?

ELMo 用双向 LSTM 产上下文相关词向量,是预训练上下文表示的重要里程碑,但已被 Transformer 上下文模型(BERT、GPT)取代;现多作历史对照或轻量场景,主流用 Transformer Embedding。

追问 2如何评估 Embedding 质量?

内在:下游分类/聚类、语义相似度与人类标注相关性。外在:检索 MRR、Recall@K、nDCG;领域用 MTEBbenchmark;生产看 RAG 端到端答案质量,避免只看单一余弦分数。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。

🛠️ AI 工具

  • spaCy

    工业级 Python NLP 库,33K+ stars。提供高效的文本分词、命名实体识别、依存句法分析等能力,内置预训练模型支持 70+ 语言,是生产环境 NLP 任务的标准选择

  • Transformers

    Hugging Face 核心模型库,159,648+ stars。支持 200K+ 预训练模型,覆盖 NLP、计算机视觉、音频、多模态等全领域,提供统一 API 接口,是 AI 开发者的必备基础设施

  • mteb

    大规模文本嵌入模型基准测试套件,覆盖信息检索、聚类、双语文本挖掘等多个 NLP 任务,是评估嵌入模型质量的标准工具。