Part-of-Speech Tagging（词性标注）

就是给每个词打上『名词』『动词』这类语法标签

亦作、亦称：词性标注 · POS Tagging · POS · 词类标注 · 语法标注

词性标注（POS Tagging）是 NLP 流水线中最早执行的序列标注任务，为每个词指定名词、动词、形容词等语法类别。它是句法解析、信息抽取与问答系统的基础组件，方法从规则驱动演进至基于 BERT 的深度学习模型，现代系统已接近人类标注水平。

概述

词性标注是将句子中每个 token 映射到预定义词性集合中的基础 NLP 任务。

输入：一段已分词的文本序列（如 [「The」,「cat」,「sat」]）
输出：等长的词性标签序列（如 [DT, NN, VBD]）
标注集选择：英语常用 Penn Treebank（PTB） 36 类标签或通用依存 Universal POS（UPOS） 17 类标签
下游价值：是句法分析、命名实体识别（NER）、机器翻译、情感分析等任务的前置步骤
难点：词汇多义性（同词不同词性）与上下文歧义是核心挑战

工作原理

词性标注本质上是序列标注（Sequence Labeling）问题，核心在于联合利用当前词和上下文信息。

规则法：依据词法特征（后缀、大写等）和人工语法规则匹配词性，最早于 1960–1970 年代使用
HMM 统计法：对观测序列（词）和隐状态序列（词性）建模，通过 Viterbi 算法求最优路径；Church (1988) 最早系统应用
CRF 判别法：条件随机场（CRF）可利用任意特征，避免 HMM 的独立性假设，Lafferty et al. (2001) 提出后成为统计 NLP 标准
深度学习法：BiLSTM + CRF 联合建模，同时捕获双向上下文和标签转移约束
预训练大模型法：在 BERT/RoBERTa 等预训练语言模型基础上微调，目前英语 Penn Treebank 测试集准确率超过 97.8%

主要方法与变体

不同历史阶段形成了三大类技术路线，各有适用场景。

基于规则（Rule-Based）：如 Brill Tagger（1992），通过错误驱动的转换规则迭代纠错，可解释性强；适合资源匮乏语言
基于隐马尔可夫模型（HMM）：利用发射概率（词|词性）和转移概率（词性序列）建模，经典代表为 TnT Tagger
基于条件随机场（CRF）：判别式序列标注，特征工程丰富；长期是工业级首选，如 Stanford POS Tagger
BiLSTM-CRF：结合双向 LSTM 的上下文表示与 CRF 输出层，Ma & Hovy (2016) 提出的经典架构
基于 Transformer 的方法：BERT fine-tuning 将 POS 标注视为 token-level 分类，在多数基准测试上达到最优

应用场景

词性标注作为基础管道组件，广泛用于各类 NLP 系统。

句法分析（Parsing）：词性是依存关系分析和短语结构分析的输入特征
命名实体识别（NER）：名词序列往往是实体候选，词性信息可提升 NER 精度
机器翻译：源语言词性辅助对齐和目标语言词形选择
问答系统（如 nlp-007）：阅读理解中通过词性过滤候选答案区间
信息抽取：动词识别用于关系抽取；名词短语识别用于关键词提取
文本规范化与纠错：根据词性提示合理修正拼写或语法错误
注意力机制与 Transformer（如 dl-004）：预训练语言模型内部已隐式学习词性，但在低资源语言中显式标注仍不可缺

局限与误区

词性标注并非「已解决」问题，在若干场景下仍存在明显局限。

跨域泛化：在社交媒体、法律文书、医学文本等与训练语料差异大的领域，准确率会显著下降
低资源语言：缺乏标注语料时，规则法与跨语言迁移方法是唯一选择
词性标注集不统一：不同标注集（PTB vs UPOS）之间的映射会引入噪声
误解：词性等于含义——词性只描述语法功能，不直接揭示词义，同一词性下含义差异巨大
误解：现代大模型已不需要词性标注——LLM 隐式学习了词性知识，但在结构化 NLP 管道和可解释系统中显式标注依然有价值

发展脉络

词性标注的发展跨越六十余年，是 NLP 领域技术演进的缩影。

1958–1959 年：Harris 在宾大 TDAP 项目中提出首批自动词性标注规则，基于有限状态转换器实现
1971 年：Greene & Rubin 开发 TAGGIT 程序，对 Brown 语料库进行半自动标注，准确率约 77%
1979 年：Brown 语料库带标注版本发布（87 类标签），成为此后二十年的核心训练资源
1988 年：Church 提出随机词性标注程序，正式引入 HMM 建模
1992–1993 年：Brill 提出基于转换规则（TBL）的 Brill Tagger，开创错误驱动学习范式
2001 年：Lafferty 等提出 CRF，此后成为序列标注主流框架
2016 年：Ma & Hovy 提出 BiLSTM-CNNs-CRF 端到端架构，深度学习全面接管
2019 年起：BERT 系列预训练模型将英语 POS 准确率推至 97.8%+，多语言 mBERT/XLM 拓展至百余种语言

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「就是给每个词打上『名词』『动词』这类语法标签」
「做完词性标注才能让机器真正读懂句子结构」
「词性标注错了，后面的句法分析和信息抽取也会跟着出错」

延伸阅读

从知识库精选 2 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Part-of-Speech Tagging」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

速览

一句话定义: 词性标注是为文本序列中的每个词自动分配语法类别标签（如名词、动词、形容词等）的 NLP 序列标注任务。
提出: 1958–1959 年（Harris 在宾夕法尼亚大学的 TDAP 项目提出早期自动标注规则系统）；1971 年（Greene & Rubin 开发 TAGGIT 程序处理 Brown 语料库）
关键论文 / 来源: Eric Brill, A Simple Rule-Based Part of Speech Tagger (1992)；Church, A Stochastic Parts Program and Noun Phrase Parser for Unrestricted Text (1988)；Lafferty et al., Conditional Random Fields (2001)；Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers (2019)

分类

自然语言处理机器学习

Part-of-Speech Tagging（词性标注）

概述

工作原理

主要方法与变体

应用场景

局限与误区

发展脉络

常见误解

相关术语

延伸阅读

问答系统：阅读理解与开放域 QA

注意力机制与 Transformer 架构

外部参考

概述

工作原理

主要方法与变体

应用场景

与相邻概念的区别

局限与误区

发展脉络

常见误解

相关术语

延伸阅读

问答系统：阅读理解与开放域 QA

注意力机制与 Transformer 架构

外部参考