核心要点
能定义 NLP 并区分理解与生成任务
举出搜索、翻译、对话、信息抽取等典型应用
说明从规则 → 统计 → 深度学习 → 大模型的演进脉络
能谈数据、标注成本与多语言/低资源挑战
简要回答
定义:自然语言处理(NLP) 是人工智能中研究如何让机器处理人类语言的学科,输入输出多为文本或语音转写文本;
核心任务族
- 理解:分类、命名实体识别(NER)、情感分析、语义检索
- 生成:机器翻译、摘要、对话、代码生成
- 结构化:信息抽取、关系抽取、知识图谱构建
为何重要
- 非结构化文本占企业数据大头,NLP 是解锁其价值的关键
- 搜索推荐、智能客服、合规审核、医疗病历结构化等直接依赖 NLP
- 预训练 Transformer 与 BERT/GPT 大幅降低落地门槛
技术演进:规则与词典 → 统计模型(HMM、CRF)→ 神经网络 → 预训练 + 微调 → 指令对齐的大模型
标准回答
定义:自然语言处理(NLP) 是人工智能中研究如何让机器处理人类语言的学科,输入输出多为文本或语音转写文本。
核心任务族
- 理解:分类、命名实体识别(NER)、情感分析、语义检索
- 生成:机器翻译、摘要、对话、代码生成
- 结构化:信息抽取、关系抽取、知识图谱构建
为何重要
- 非结构化文本占企业数据大头,NLP 是解锁其价值的关键
- 搜索推荐、智能客服、合规审核、医疗病历结构化等直接依赖 NLP
- 预训练 Transformer 与 BERT/GPT 大幅降低落地门槛
技术演进:规则与词典 → 统计模型(HMM、CRF)→ 神经网络 → 预训练 + 微调 → 指令对齐的大模型。
工程注意:分词与 Tokenization 影响成本;标注质量决定上限;需评估偏见、幻觉与隐私合规。详见 NLP 入门。
常见误区
⚠️ 常见踩坑
把 NLP 等同于 ChatGPT;忽略传统特征工程在资源受限场景的价值;说不清「理解 vs 生成」任务差异。
追问
追问 1:NLP 和 LLM 是什么关系?
题库专题:词性标注(POS)在 NLP 中有何意义?LLM 是 NLP 的一个子集与当前主流范式:用大规模自监督预训练获得通用语言表示,再通过微调/提示完成各类 NLP 任务。传统 NLP 方法(TF-IDF、HMM)在解释性、小数据、边缘部署场景仍有价值。
题库延伸:与本追问相关的专题题 → 词性标注(POS)在 NLP 中有何意义?
追问 2:中文 NLP 有哪些特殊难点?
无天然词边界需分词;简繁、方言、网络用语;多义与省略更常见。需选用适合中文的分词器(jieba、LTP)或 subword 模型,并注意领域适配与 OCR 噪声。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- spaCy
工业级 Python NLP 库,33K+ stars。提供高效的文本分词、命名实体识别、依存句法分析等能力,内置预训练模型支持 70+ 语言,是生产环境 NLP 任务的标准选择