标准回答
本质
Embedding 就是把一段文本喂给模型,输出一串固定长度的数字(向量)。关键性质是「语义相近 → 向量相近」,所以判断两段话意思像不像,就变成算两个向量的距离/余弦相似度。
搜相似:语义搜索
传统关键词搜「退货」搜不到只写「退款流程」的文档;用 embedding 把所有文档和查询都转向量,按相似度排序,就能命中同义、近义内容。这是 RAG 里检索的核心步骤——先用向量召回相关片段,再喂给大模型生成答案。
找重复:去重与聚类
把一批用户反馈/新闻转向量,相似度高的归一类,可以做内容去重、话题聚类、找近似重复工单。
做分类与推荐
把文本向量丢给一个简单分类器做意图识别;或拿「用户看过的内容向量」找最相近的物料做相似推荐。
异常检测
正常样本向量聚成一团,离群的向量就是异常,可用于发现异常文本/行为。
常见误区
⚠️ 常见踩坑
别把 embedding 当成「能回答问题的模型」——它只负责把内容变成可比较的向量,回答还得靠检索后接大模型;也别忽略不同任务要选合适的 embedding 模型和相似度阈值。
追问
追问 1:Embedding 和直接用关键词搜索有什么区别?
关键词搜靠字面匹配,换个说法就搜不到;embedding 比的是语义,能命中同义、近义表达。实际中常把两者混合(hybrid search):关键词保证精确命中,向量保证语义召回。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📖 术语表
🛠️ AI 工具
- Milvus
云原生向量数据库,43,875+ stars。专为 AI 应用设计的分布式向量搜索引擎,支持千亿级向量检索,广泛应用于 RAG、推荐系统和相似性搜索场景