核心要点
Word2Vec 是静态向量:「bank」无论银行还是河岸都是同一个向量,无法消歧多义词
Transformer Embedding 是上下文动态向量:同一词随句子不同而向量不同
Word2Vec 靠局部共现(CBOW/Skip-gram)学习,Transformer 靠多层自注意力编码全句
现代检索/RAG 用 sentence-transformers 或 LLM 取句向量,效果远超平均 Word2Vec
标准回答
Word2Vec(2013)
- CBOW/Skip-gram 在词共现统计上学习固定词向量
- 静态:「bank」无论银行还是河岸都是同一个向量,无法消歧
- 维度通常 100-300,训练快、轻量
Transformer Embedding
- token 经多层自注意力编码,得到上下文相关表示
- 同一词在不同句子中向量不同,天然处理多义
- 维度更大(隐藏层 768-4096+),需 GPU,但语义更精准
实践选型
- 关键词匹配、轻量场景仍可用 Word2Vec/FastText
- 现代检索与 RAG 普遍用 sentence-transformers 或 LLM 取句向量做文档/查询 Embedding,效果远优于对 Word2Vec 词向量取平均
常见误区
⚠️ 常见踩坑
把上下文 Embedding 当成「更高维的 Word2Vec」——它的关键差异是同词随上下文变化而非维度;做句子相似度时直接对 Word2Vec 词向量取平均,会丢失词序与语义,远不如专门训练的句向量模型(sentence-transformers)。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- spaCy
工业级 Python NLP 库,33K+ stars。提供高效的文本分词、命名实体识别、依存句法分析等能力,内置预训练模型支持 70+ 语言,是生产环境 NLP 任务的标准选择
- Transformers
Hugging Face 核心模型库,159,648+ stars。支持 200K+ 预训练模型,覆盖 NLP、计算机视觉、音频、多模态等全领域,提供统一 API 接口,是 AI 开发者的必备基础设施
- mteb
大规模文本嵌入模型基准测试套件,覆盖信息检索、聚类、双语文本挖掘等多个 NLP 任务,是评估嵌入模型质量的标准工具。