词性标注（POS）在 NLP 中有何意义？

Question 1

Accepted Answer

任务：输入 token 序列，输出对应词性标签（如 NN, VB, JJ）。 为何重要 1. 句法分析基础：依存/成分解析常依赖 POS 特征 2. 消歧：同一词形不同词性含义不同（「计划」名/动） 3. 信息抽取：名词短语 chunking、术语识别 4. 机器翻译：目标语言词序与形态生成需要 POS 信息 5. 文本规范化： lemmatization 需知词性选正确词根 方法演进 - 统计：HMM、CRF（全局最优标签序列） - 神经网络：BiLSTM-CRF - 预训练：BERT 微调，准确率 >97%（英文 PTB） 难点：罕见词、领域术语、社交媒体非规范文本；中文需先分词，分词错误会传导到 POS。 详见 序列标注。

Question 2

POS 标注错误会如何影响下游？

Accepted Answer

依存解析 attachment 错误、NER 边界漂移、翻译形态错误会级联放大。应用管道中应对低置信 POS 做回退或端到端联合模型。

Question 3

Universal POS tagset 是什么？

Accepted Answer

Universal Dependencies 项目定义的一套跨语言通用词性标签（17 个，如 NOUN、VERB、ADJ、ADP），相比 Penn Treebank 这类英文专用细标签集更粗、更语言无关。好处是多语言数据可统一标注与训练，便于跨语言迁移与对比；代价是丢失语言特有的细粒度形态信息。

Question 4

BERT 还需要 POS 吗？

Accepted Answer

端到端任务可不显式用 POS，但 POS 仍用于语言学分析、低资源语言工具、可解释性与部分特征工程。工业 NLP 管道中 spaCy/Stanza 仍默认提供 POS。

题库延伸：与本追问相关的专题题 → BERT 和 GPT 的架构与适用场景有何不同？

词性标注（POS）在 NLP 中有何意义？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习