核心要点

  • 纠错 + 分词:修正错别字、切分出有意义的词

  • 意图识别 + 类目预测:判断用户想要什么、落到哪个类目

  • Term weighting:判断查询中各词的重要性(核心词 vs 修饰词)

  • 查询改写 / 扩展:同义改写、补全、纠偏,提升召回

标准回答

定位:Query 理解是搜索链路的入口,把用户的原始查询(往往简短、口语、有错)转换成结构化、可检索的意图表示,直接影响召回与排序质量。

主要任务

  • 纠错(Spelling Correction):修正错别字、拼音、形近字。
  • 分词 / 切词:把查询切成有语义的 term,处理新词与歧义。
  • 意图识别:判断查询意图(导航 / 信息 / 交易;商品 / 内容 / 服务等)。
  • 类目预测:把查询映射到商品/内容类目体系,缩小检索范围。
  • 紧急度 / 时效识别:判断是否需要时效性强或紧急的结果。
  • Term Weighting:估计每个词的重要性,区分核心词与可省略的修饰词,指导召回与匹配。
  • 查询改写 / 扩展(Rewrite / Expansion):同义改写、纠偏、补全、加扩展词,缓解「词不匹配」、提升召回。

目标:理解「用户真正想要什么」,为后续召回排序提供准确的结构化信号。

常见误区

⚠️ 常见踩坑

Query 理解不等于简单分词;分词只是一环。漏掉意图识别、term weighting、改写等会导致召回偏题或漏召。改写也要控制语义漂移,过度扩展会引入噪声、降低精度。

追问

追问 1Term weighting 在搜索里有什么用?

它判断查询中各词的重要性,核心词必须命中、修饰词可松弛。用于加权匹配打分、决定哪些词可丢弃以提升召回,避免「长 query 全部硬匹配导致零结果」,同时保证主意图不被稀释。

追问 2查询改写的收益与风险是什么?

收益是缓解词面不匹配、提升召回(同义、纠错、补全)。风险是语义漂移——改写过度会把用户意图带偏,召回不相关结果。通常需置信度门控、保留原 query 多路召回,并用点击反馈校准改写。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。