Word2Vec 和 Transformer Embedding 有何区别？

Question 1

Accepted Answer

Word2Vec（2013） - CBOW/Skip-gram 在词共现统计上学习固定词向量 - 静态：「bank」无论银行还是河岸都是同一个向量，无法消歧 - 维度通常 100-300，训练快、轻量 Transformer Embedding - token 经多层自注意力编码，得到上下文相关表示 - 同一词在不同句子中向量不同，天然处理多义 - 维度更大（隐藏层 768-4096+），需 GPU，但语义更精准 实践选型 - 关键词匹配、轻量场景仍可用 Word2Vec/FastText - 现代检索与 RAG 普遍用 sentence-transformers 或 LLM 取句向量做文档/查询 Embedding，效果远优于对 Word2Vec 词向量取平均

Question 2

ELMo 的地位？

Accepted Answer

ELMo 用双向 LSTM 产上下文相关词向量，是预训练上下文表示的重要里程碑，但已被 Transformer 上下文模型（BERT、GPT）取代；现多作历史对照或轻量场景，主流用 Transformer Embedding。

Question 3

如何评估 Embedding 质量？

Accepted Answer

内在：下游分类/聚类、语义相似度与人类标注相关性。外在：检索 MRR、Recall@K、nDCG；领域用 MTEB 等 benchmark；生产看 RAG 端到端答案质量，避免只看单一余弦分数。

Word2Vec 和 Transformer Embedding 有何区别？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习