核心要点

  • 定义命名实体类型:人名、地名、机构、时间等

  • 区分 NER 与 POS关系抽取

  • 说明 BIO/BILOU 标注体系

  • 举出搜索、知识图谱、合规等应用

简要回答

命名实体(Named Entity):文本中指代特定对象、事件或数量的短语,如「苹果公司」「2024 年」「北京市」;

NER 任务:给定文本,输出实体边界(span)+ 类型标签

标准回答

命名实体(Named Entity):文本中指代特定对象、事件或数量的短语,如「苹果公司」「2024 年」「北京市」。

NER 任务:给定文本,输出实体边界(span)+ 类型标签。常用 BIO 标注:B-PER 实体开始、I-PER 内部、O 非实体。

实体类型

  • 通用:PER(人)、ORG(机构)、LOC(地点)、DATE、MONEY
  • 领域定制:药品名、产品型号、法律条款(需自定义 schema)

方法

  • 规则 + 词典(高精确、低召回)
  • CRF / BiLSTM-CRF
  • BERT + 线性层(当前主流)
  • LLM 提示抽取(灵活但需校验)

应用价值

  1. 知识图谱:关系抽取 的前置
  2. 搜索增强:实体链接提升 query 理解
  3. 金融/医疗合规:自动标出当事人、药物、诊断
  4. 简历/合同解析:结构化字段入库

详见 信息抽取

常见误区

⚠️ 常见踩坑

把普通名词当命名实体;混淆 NER 与实体链接(EL);不提嵌套实体与领域适配。

追问

追问 1嵌套 NER 怎么处理?

平面 BIO 无法表达「北京大学」内含「北京」。可用嵌套标签、超图、span-based 分类器(枚举候选 span 再分类),或 pipeline 先长后短。

追问 2NER 和实体链接(EL)区别?

NER 只识别「苹果公司」这个 mention;EL 把它消歧并链接到知识库实体 Q312(Apple Inc.)。EL 需要候选生成 + 排序,解决同名歧义。

追问 3如何评估 NER?

用实体级(而非 token 级)的精确率/召回/F1:一个实体必须边界和类型都完全匹配才算对(严格 span 匹配,如 CoNLL 标准)。边界对但类型错、或部分重叠都算错。注意嵌套实体和长实体边界是常见失分点,多类别用宏平均 F1 看各类均衡。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。