核心要点

  • 实体链接(EL):把文本中的 mention 链接到知识图谱中唯一对应的实体

  • 两步流程:候选生成(找出 mention 可能指向的实体集)+ 实体消歧(从候选中选最优)

  • 消歧信号:上下文语义相似度、实体流行度先验、候选实体间的图结构一致性

  • 解决一词多义:「苹果」→ 公司还是水果,靠上下文与全局一致性判定

标准回答

任务定义

实体链接(Entity Linking)把文本中识别出的 mention(如「苹果」)链接到知识图谱中唯一的实体节点,核心难点是歧义——同一表述可能对应多个实体。

候选生成

先用别名词典、字符串匹配、缩写表等召回 mention 可能指向的候选实体集合,兼顾召回率与候选规模。

实体消歧

从候选中选出正确实体,常用三类信号:(1)局部上下文——mention 周围文本与候选实体描述/类型的语义相似度(嵌入匹配);(2)流行度先验——常见实体的先验概率;(3)全局一致性——同一文档内多个 mention 的目标实体应在图上彼此关联(用图结构/协同消歧建模)。

现代做法常用 BERT 类编码器把 mention 上下文与实体表示编码后打分,再结合全局一致性联合优化。例如「我用苹果写代码」结合「写代码」上下文应链到「Apple 公司」而非水果。

常见误区

⚠️ 常见踩坑

别把实体链接等同于 NER:NER 只负责识别 mention 边界与类型,实体链接还要把 mention 消歧并对齐到 KG 中唯一节点;NIL(库外实体)也需处理。

追问

追问 1如何处理 KG 中不存在的实体(NIL)?

设置 NIL 阈值或专门的 NIL 分类器:当所有候选的消歧得分都低于阈值,或最优候选置信度不足时判为库外实体,标记为 NIL,避免强行错链;后续可触发新实体发现与入库流程。

追问 2局部消歧与全局消歧(协同消歧)有何区别?

局部消歧只看单个 mention 的上下文独立打分,快但忽略文档级关联;全局消歧联合优化同一文档所有 mention,使目标实体在 KG 上彼此连贯,准确率更高但计算复杂(常建图后用迭代/随机游走/优化求解)。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。