核心要点

  • 知识抽取:NER 抽实体、关系抽取(RE)抽实体间关系、事件抽取抽事件要素

  • 知识融合:实体对齐、实体消歧、去重,把多来源同一实体合并为唯一节点

  • 知识加工:质量评估、冲突消解、知识补全(缺失三元组预测)

  • 存储:写入图数据库(如 Neo4j)或 RDF 三元组库,供查询与推理

标准回答

整体流程

知识图谱构建通常分四个阶段:知识抽取 → 知识融合 → 知识加工 → 知识存储。

知识抽取

从非结构化/半结构化文本中提取知识:命名实体识别(NER)找出实体边界与类型,关系抽取(RE)判断实体对之间的关系,事件抽取识别事件触发词及其论元。结构化数据可通过映射规则直接转三元组。

知识融合

多来源抽取的知识需统一:实体对齐(判断不同来源的 mention 是否指同一实体)、实体消歧(同名不同实体区分)、去重与属性合并,最终形成唯一节点。

知识加工与存储

对融合后的知识做质量评估、冲突消解,并用嵌入或规则做知识补全,预测缺失三元组。最后存入图数据库(Neo4j 等属性图)或 RDF 三元组库,对外提供图查询与推理能力。

常见误区

⚠️ 常见踩坑

别把「知识抽取」和「知识融合」混为一谈:抽取解决「从文本得到三元组」,融合解决「跨来源同一实体/关系的对齐去重」,两者目标不同。

追问

追问 1关系抽取有哪些主流方法?

主要有:基于规则/模板的方法;有监督分类(给定实体对预测关系标签,如 PCNN、BERT 微调);远程监督(用已有 KG 自动标注语料);以及近年用 LLM零样本/少样本抽取,配合 schema 约束输出三元组。

追问 2实体对齐(Entity Alignment)怎么做?

传统方法靠字符串相似度+属性匹配;现代方法用表示学习把不同 KG 的实体嵌入同一空间,结合结构(邻居一致性)和属性信息计算相似度,再用阈值或匹配算法判定同一实体。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。