什么是命名实体？NER 在 NLP 任务中有何用处？

Question 1

Accepted Answer

命名实体（Named Entity）：文本中指代特定对象、事件或数量的短语，如「苹果公司」「2024 年」「北京市」。 NER 任务：给定文本，输出实体边界（span）+ 类型标签。常用 BIO 标注：B-PER 实体开始、I-PER 内部、O 非实体。 实体类型 - 通用：PER（人）、ORG（机构）、LOC（地点）、DATE、MONEY - 领域定制：药品名、产品型号、法律条款（需自定义 schema） 方法 - 规则 + 词典（高精确、低召回） - CRF / BiLSTM-CRF - BERT + 线性层（当前主流） - LLM 提示抽取（灵活但需校验） 应用价值 1. 知识图谱：关系抽取 的前置 2. 搜索增强：实体链接提升 query 理解 3. 金融/医疗合规：自动标出当事人、药物、诊断 4. 简历/合同解析：结构化字段入库 详见 信息抽取。

Question 2

嵌套 NER 怎么处理？

Accepted Answer

平面 BIO 无法表达「北京大学」内含「北京」。可用嵌套标签、超图、span-based 分类器（枚举候选 span 再分类），或 pipeline 先长后短。

Question 3

NER 和实体链接（EL）区别？

Accepted Answer

NER 只识别「苹果公司」这个 mention；EL 把它消歧并链接到知识库实体 Q312（Apple Inc.）。EL 需要候选生成 + 排序，解决同名歧义。

Question 4

如何评估 NER？

Accepted Answer

用实体级（而非 token 级）的精确率/召回/F1：一个实体必须边界和类型都完全匹配才算对（严格 span 匹配，如 CoNLL 标准）。边界对但类型错、或部分重叠都算错。注意嵌套实体和长实体边界是常见失分点，多类别用宏平均 F1 看各类均衡。

什么是命名实体？NER 在 NLP 任务中有何用处？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习