标准回答
先用 prompt 跑通(量小或验证阶段)
直接让大模型分类:在 system 里给出类别定义(如「正面/负面/中性,以及它们的判定标准」),加 2~3 个示例(few-shot)帮模型对齐口径,要求「只输出标签,不要解释」方便代码解析。temperature 设 0 求稳定。
量大就降本到小模型
每条评论都调大模型太贵太慢。做法:先用大模型给一批数据自动打标签(再人工校验),用这批数据微调或蒸馏出一个小分类模型,之后海量评论走小模型,成本和延迟都大幅下降。
保证质量
抽样几百条人工标注做评测集,统计准确率/混淆矩阵,看哪些类别易混;定期人工抽检线上结果,发现偏差就补充示例或重训。
示例 prompt
「判断下面评论的情感,只输出:正面/负面/中性。评论:物流太慢了 → 」
常见误区
⚠️ 常见踩坑
类别定义模糊、不给示例,导致模型对「中性」和「负面」的边界乱判;以及让模型输出一大段解释而不是纯标签,下游解析困难、还多花 token。
追问
追问 1:类别很多或标签会增加,怎么设计更稳?
类别多时给每个类清晰定义和典型例子,必要时分层分类(先粗分大类再细分);标签集会变动就把类别列表做成配置注入 prompt,新增标签补充定义和示例即可,避免硬编码;输出限定在给定标签集合内并在代码侧校验非法标签。
追问 2:怎么衡量分类效果、发现 badcase?
用人工标注的评测集算准确率、各类的精确率/召回率和混淆矩阵,定位易错类别;线上做随机抽检和用户反馈回收,把错判样本收集成 badcase 集,用来补充 few-shot 示例或加入重训数据持续改进。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。