如何用大模型给海量用户评论做情感分类 / 打标签？

Question 1

Accepted Answer

先用 prompt 跑通（量小或验证阶段） 直接让大模型分类：在 system 里给出类别定义（如「正面/负面/中性，以及它们的判定标准」），加 2~3 个示例（few-shot）帮模型对齐口径，要求「只输出标签，不要解释」方便代码解析。temperature 设 0 求稳定。 量大就降本到小模型 每条评论都调大模型太贵太慢。做法：先用大模型给一批数据自动打标签（再人工校验），用这批数据微调或蒸馏出一个小分类模型，之后海量评论走小模型，成本和延迟都大幅下降。 保证质量 抽样几百条人工标注做评测集，统计准确率/混淆矩阵，看哪些类别易混；定期人工抽检线上结果，发现偏差就补充示例或重训。 示例 prompt 「判断下面评论的情感，只输出：正面/负面/中性。评论：物流太慢了 → 」

Question 2

类别很多或标签会增加，怎么设计更稳？

Accepted Answer

类别多时给每个类清晰定义和典型例子，必要时分层分类（先粗分大类再细分）；标签集会变动就把类别列表做成配置注入 prompt，新增标签补充定义和示例即可，避免硬编码；输出限定在给定标签集合内并在代码侧校验非法标签。

Question 3

怎么衡量分类效果、发现 badcase？

Accepted Answer

用人工标注的评测集算准确率、各类的精确率/召回率和混淆矩阵，定位易错类别；线上做随机抽检和用户反馈回收，把错判样本收集成 badcase 集，用来补充 few-shot 示例或加入重训数据持续改进。

如何用大模型给海量用户评论做情感分类 / 打标签？

核心要点

标准回答

常见误区

追问

延伸学习