核心要点
定义情感分析粒度:文档/句子/方面级
区分二分类、多分类与情感强度回归
举出电商、金融、舆情等落地场景
知道讽刺、多语言、领域迁移等难点
简要回答
定义:情感分析是从非结构化文本中识别作者对实体、产品或事件的态度、情绪或意见极性;
粒度层级
- 文档级:整条评论整体正负面
- 句子/片段级:长文中逐句标注
- 方面级 ABSA:「电池续航差但屏幕好」→ 分别评价各属性
方法谱系
典型应用
挑战:讽刺反讽、emoji、多语言混合、领域词(「杀疯了」= 好评)
标准回答
定义:情感分析是从非结构化文本中识别作者对实体、产品或事件的态度、情绪或意见极性。
粒度层级
- 文档级:整条评论整体正负面
- 句子/片段级:长文中逐句标注
- 方面级 ABSA:「电池续航差但屏幕好」→ 分别评价各属性
方法谱系
- 词典 + 规则(快速冷启动)
- 传统 ML:TF-IDF + SVM/朴素贝叶斯
- 深度学习:BiLSTM、 BERT 微调
- 大模型:零样本/少样本提示,需注意成本与一致性
典型应用
- 电商评论洞察与竞品分析
- 社交媒体品牌舆情与危机预警
- 金融新闻情绪指数(辅助量化策略)
- 客服对话质检与坐席考核
- 政治/医疗等敏感领域的舆论监测
挑战:讽刺反讽、emoji、多语言混合、领域词(「杀疯了」= 好评)。评估常用 Accuracy、F1、宏平均 F1。详见 NLP 应用。
常见误区
⚠️ 常见踩坑
只谈正负二分类,忽略方面级情感;把情感分析等同于「ChatGPT 读一遍」而无评估指标。
追问
追问 1:方面级情感分析(ABSA)怎么做?
先抽取「方面词」(如电池、屏幕),再判断每个方面的情感极性。常见做法:把方面词拼进输入做句对分类(如「电池续航差但屏幕好」分别对电池、屏幕打分),或用序列标注联合抽取方面+情感。难点是隐式方面(没出现方面词)和一句多极性,评估按方面级 F1 而非整句准确率。
追问 2:讽刺检测为什么难?
字面义与真实态度相反,依赖语境、常识与世界知识。可用对比学习、多任务(情感+讽刺联合训练),或引入外部知识;大模型有一定能力但仍会翻车。
追问 3:线上情感系统如何监控?
跟踪类别分布漂移、低置信样本人工复核、对抗样本(空格插入、谐音)检测;A/B 对比业务指标(投诉率、转化率)而不只看离线 F1。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- spaCy
工业级 Python NLP 库,33K+ stars。提供高效的文本分词、命名实体识别、依存句法分析等能力,内置预训练模型支持 70+ 语言,是生产环境 NLP 任务的标准选择