Semantic Search(语义搜索)

按意思搜不是按字搜

亦作、亦称:语义搜索 · Semantic Retrieval

利用 Embedding 将查询与文档映射到向量空间,按语义相似度检索,适合同义词、跨语言和模糊意图场景。 语义搜索依赖 Embedding 质量与索引结构(HNSW、IVF 等),需定期评估召回率与领域漂移。

工作原理

利用 Embedding 将查询与文档映射到向量空间,按语义相似度检索,适合同义词、跨语言和模糊意图场景。 语义搜索依赖 Embedding 质量与索引结构(HNSW、IVF 等),需定期评估召回率与领域漂移。

应用场景

Semantic Search常见于:对话助手、代码生成、知识问答、内容创作与 Agent 推理底座。实际选型需结合业务指标、数据规模与部署约束评估适用性。

局限与误区

围绕 Semantic Search 的口语化说法(见「常见误解」)常过度简化。效果依赖数据质量、任务匹配与系统整体设计;生产环境应配合评测、监控与人工复核。

背景与发展

Semantic Search随 AI 研究与工程实践持续演进,定义边界与最佳实践仍在更新。建议结合原始论文、官方文档与本站延伸阅读建立准确认知。

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「按意思搜不是按字搜」
  • 「Embedding 相似度检索」
  • 「同义词也能找到」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    Agent 记忆与知识库系统设计:从短期上下文到长期记忆架构

    AI Agent 的核心能力之一是记忆——能够在多次交互中保持连贯性、积累经验、并在需要时检索相关信息。本文系统讲解 Agent 记忆架构的设计原理,涵盖短期记忆(上下文窗口管理)、中期记忆(对话历史压缩)、长期记忆(向量存储与知识图谱)、知识库构建(RAG 架构)、记忆检索策略、记忆遗忘机制,以及生产环境中的最佳实践和常见陷阱。

  2. 2

    RAG 检索增强生成架构指南

    如何结合外部知识库增强 LLM 的准确性和时效性

  3. 3

    NLP 基础:从词嵌入到 Transformer

    自然语言处理的核心技术路线。从 One-Hot 到 Word2Vec,从 RNN/LSTM 到注意力机制,再到 Transformer 架构的完整演进历程。包含词向量可视化、注意力权重计算和简易 Transformer 的 Python 实现。