核心要点

  • 能给两套方案:量小/试水用 prompt 直接分类(zero/few-shot),量大/要稳定可蒸馏或微调一个小模型

  • 能写好分类 prompt:给清晰的类别定义 + 几个示例,要求「只输出标签」,便于解析

  • 强调一致性与评测:建带标准答案的评测集、人工抽检,监控准确率

  • 知道用小模型处理海量数据来控成本,而非每条都调大模型

标准回答

先用 prompt 跑通(量小或验证阶段)

直接让大模型分类:在 system 里给出类别定义(如「正面/负面/中性,以及它们的判定标准」),加 2~3 个示例(few-shot)帮模型对齐口径,要求「只输出标签,不要解释」方便代码解析。temperature 设 0 求稳定。

量大就降本到小模型

每条评论都调大模型太贵太慢。做法:先用大模型给一批数据自动打标签(再人工校验),用这批数据微调或蒸馏出一个小分类模型,之后海量评论走小模型,成本和延迟都大幅下降。

保证质量

抽样几百条人工标注做评测集,统计准确率/混淆矩阵,看哪些类别易混;定期人工抽检线上结果,发现偏差就补充示例或重训。

示例 prompt

「判断下面评论的情感,只输出:正面/负面/中性。评论:物流太慢了 → 」

常见误区

⚠️ 常见踩坑

类别定义模糊、不给示例,导致模型对「中性」和「负面」的边界乱判;以及让模型输出一大段解释而不是纯标签,下游解析困难、还多花 token

追问

追问 1类别很多或标签会增加,怎么设计更稳?

类别多时给每个类清晰定义和典型例子,必要时分层分类(先粗分大类再细分);标签集会变动就把类别列表做成配置注入 prompt,新增标签补充定义和示例即可,避免硬编码;输出限定在给定标签集合内并在代码侧校验非法标签。

追问 2怎么衡量分类效果、发现 badcase?

用人工标注的评测集算准确率、各类的精确率/召回率和混淆矩阵,定位易错类别;线上做随机抽检和用户反馈回收,把错判样本收集成 badcase 集,用来补充 few-shot 示例或加入重训数据持续改进。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。