如何用 AI 做一个「相似内容/相关推荐」功能？

Question 1

Accepted Answer

整体思路 核心是「向量化 + 最近邻」。把标题、正文、标签拼成一段文本，用 embedding 模型（如 bge、text-embedding-3）转成向量，落库到向量数据库。用户看某篇内容时，拿这篇的向量去库里做 ANN 检索，取相似度 Top-20 作为候选。 落地步骤 1. 离线批量：把存量内容全部向量化入库，新内容发布时增量写入（消息队列触发）。 2. 在线检索：请求来时取目标向量做 ANN，向量库返回 Top-N + 相似度分数。 3. 后处理：过滤掉自身、已读、低于相似度阈值的；按规则去重（同作者/近重复只留一条）。 4. 重排：把语义相似度和业务信号（新鲜度、点击率）加权融合再排序。 实战提示 embedding 维度和模型要全站统一，换模型必须全量重算。向量库选型先看数据量：百万级 pgvector 够用，上亿再考虑专用库。

Question 2

向量库的 ANN 检索为什么比暴力遍历快，代价是什么？

Accepted Answer

ANN（近似最近邻）用 HNSW、IVF 等索引把搜索空间剪枝，把 O(N) 暴力比对降到近似对数级，百万向量也能毫秒返回。代价是「近似」：可能漏掉个别真正的最近邻，召回率不是 100%。可以通过调索引参数（如 HNSW 的 efSearch）在速度和召回率间权衡。

Question 3

内容实时更新（比如标题改了）怎么保证推荐不过时？

Accepted Answer

在内容写库的同时发一条更新消息，消费端重新算 embedding 覆盖旧向量。删除内容要同步从向量库删，否则会推到已下架的内容。高频更新场景可以做个延迟队列批量重算，避免频繁单条写入拖慢向量库。

如何用 AI 做一个「相似内容/相关推荐」功能？

核心要点

标准回答

常见误区

追问

延伸学习