核心要点

  • 一句话本质:把文本(或图像)转成一串数字向量,意思相近的内容向量也相近,于是「比意思」变成「算距离」

  • 能落地的场景:语义搜索、相似推荐、聚类去重、文本分类、RAG 检索、异常检测

  • 能给具体例子:搜「怎么退货」也能命中「退款流程」这种不含相同词的文档

  • 知道怎么用:文本过 embedding 模型得向量,存进向量库(如 FAISS),查询时算余弦相似度取 Top-K

标准回答

本质

Embedding 就是把一段文本喂给模型,输出一串固定长度的数字(向量)。关键性质是「语义相近 → 向量相近」,所以判断两段话意思像不像,就变成算两个向量的距离/余弦相似度。

搜相似:语义搜索

传统关键词搜「退货」搜不到只写「退款流程」的文档;用 embedding 把所有文档和查询都转向量,按相似度排序,就能命中同义、近义内容。这是 RAG 里检索的核心步骤——先用向量召回相关片段,再喂给大模型生成答案。

找重复:去重与聚类

把一批用户反馈/新闻转向量,相似度高的归一类,可以做内容去重、话题聚类、找近似重复工单。

做分类与推荐

把文本向量丢给一个简单分类器做意图识别;或拿「用户看过的内容向量」找最相近的物料做相似推荐。

异常检测

正常样本向量聚成一团,离群的向量就是异常,可用于发现异常文本/行为。

常见误区

⚠️ 常见踩坑

别把 embedding 当成「能回答问题的模型」——它只负责把内容变成可比较的向量,回答还得靠检索后接大模型;也别忽略不同任务要选合适的 embedding 模型和相似度阈值。

追问

追问 1Embedding 和直接用关键词搜索有什么区别?

关键词搜靠字面匹配,换个说法就搜不到;embedding 比的是语义,能命中同义、近义表达。实际中常把两者混合(hybrid search):关键词保证精确命中,向量保证语义召回。

追问 2向量存在哪、怎么快速查相似?

存进向量数据库(FAISS、Milvus、pgvector 等),它们用近似最近邻索引(如 HNSW)在百万级向量里毫秒级取 Top-K,避免逐个算相似度的暴力计算。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。