核心要点

  • 能定义 NLP 并区分理解与生成任务

  • 举出搜索、翻译、对话、信息抽取等典型应用

  • 说明从规则 → 统计 → 深度学习 → 大模型的演进脉络

  • 能谈数据、标注成本与多语言/低资源挑战

简要回答

定义:自然语言处理(NLP) 是人工智能中研究如何让机器处理人类语言的学科,输入输出多为文本或语音转写文本;

核心任务族

  • 理解:分类、命名实体识别(NER)、情感分析、语义检索
  • 生成:机器翻译、摘要、对话、代码生成
  • 结构化:信息抽取、关系抽取、知识图谱构建

为何重要

  1. 非结构化文本占企业数据大头,NLP 是解锁其价值的关键
  2. 搜索推荐、智能客服、合规审核、医疗病历结构化等直接依赖 NLP
  3. 预训练 TransformerBERT/GPT 大幅降低落地门槛

技术演进:规则与词典 → 统计模型(HMM、CRF)→ 神经网络 → 预训练 + 微调 → 指令对齐的大模型

标准回答

定义:自然语言处理(NLP) 是人工智能中研究如何让机器处理人类语言的学科,输入输出多为文本或语音转写文本。

核心任务族

  • 理解:分类、命名实体识别(NER)、情感分析、语义检索
  • 生成:机器翻译、摘要、对话、代码生成
  • 结构化:信息抽取、关系抽取、知识图谱构建

为何重要

  1. 非结构化文本占企业数据大头,NLP 是解锁其价值的关键
  2. 搜索推荐、智能客服、合规审核、医疗病历结构化等直接依赖 NLP
  3. 预训练 Transformer 与 BERT/GPT 大幅降低落地门槛

技术演进:规则与词典 → 统计模型(HMM、CRF)→ 神经网络 → 预训练 + 微调 → 指令对齐的大模型。

工程注意:分词与 Tokenization 影响成本;标注质量决定上限;需评估偏见、幻觉与隐私合规。详见 NLP 入门

常见误区

⚠️ 常见踩坑

把 NLP 等同于 ChatGPT;忽略传统特征工程在资源受限场景的价值;说不清「理解 vs 生成」任务差异。

追问

追问 1NLP 和 LLM 是什么关系?

题库专题:词性标注(POS)在 NLP 中有何意义?

LLM 是 NLP 的一个子集与当前主流范式:用大规模自监督预训练获得通用语言表示,再通过微调/提示完成各类 NLP 任务。传统 NLP 方法(TF-IDF、HMM)在解释性、小数据、边缘部署场景仍有价值。

题库延伸:与本追问相关的专题题 → 词性标注(POS)在 NLP 中有何意义?

追问 2中文 NLP 有哪些特殊难点?

无天然词边界需分词;简繁、方言、网络用语;多义与省略更常见。需选用适合中文的分词器(jieba、LTP)或 subword 模型,并注意领域适配与 OCR 噪声。

追问 3如何评估一个 NLP 系统?

分类用 Accuracy/F1;翻译用 BLEU/COMET;摘要用 ROUGE;检索用 Recall@K、MRR;生成任务还需人工评测与幻觉检测。线上要监控延迟、成本与数据漂移。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。