智能工单分类系统中，AI 可参与哪些环节？技术选型思路是什么？

Question 1

Accepted Answer

AI 能参与工单流程的哪些环节 工单系统从进单到关单是一条流水线，AI 能嵌入其中的多个节点。最核心的是自动分类与打标签：判断工单类别（计费、物流、技术故障…）、优先级（紧急/普通）、应归属的部门，替代人工初分。在此基础上还能做意图与情绪识别，识别用户到底想做什么、情绪是否激烈，给愤怒投诉打高优先级。 往下游延伸，AI 可做自动路由派单，按分类结果和坐席技能/负载把工单分给最合适的人；做相似工单聚合与去重，把同一问题的重复反馈合并，发现批量故障；为坐席做知识推荐，匹配相关解决方案；生成自动回复草稿让坐席改改就发；还能结合处理时长做SLA 风险预警，对快超时的工单提前升级提醒。整体上 AI 既能在前端做理解归类，也能在中后端做辅助处理。 技术选型：先看类别是否固定、样本是否充足 选型的第一性判断是任务特征。如果类别固定、数据充足、是高频稳定场景（比如就那十几个明确品类），用轻量分类模型最划算——拿历史工单微调一个 BERT/小型文本分类模型，准确率高、推理延迟低、单条成本几乎可忽略，且结果稳定可控，适合大流量在线分类。 如果场景类别复杂多变、样本稀少、新类别频繁出现，或需要一定推理理解（比如要读懂一段含糊描述才能定级），微调模型要么没数据要么维护成本高，这时用大模型做零样本/少样本分类更合适：把类别定义写进提示，让 LLM 直接判断，无需大量标注、能处理没见过的情况、还能顺带给出理由。代价是延迟更高、单价更贵。 混合编排 + 人工复核闭环 实务中两条路线常混合：用轻量模型对绝大多数工单做高吞吐初分，对置信度低、判为疑难或新类别的少数工单再交给 LLM 做兜底判断，兼顾成本与覆盖。同时必须建评估与复核闭环：用准确率、混淆矩阵盯住效果，对模型不确定或高风险的工单引入人工复核，把纠正后的标签回流成训练/评测数据，持续迭代。这样系统才能在成本可控的前提下越用越准。

Question 2

微调 BERT 类模型和用 LLM 零样本分类，在工程上各有哪些成本差异？

Accepted Answer

微调小模型前期要投入数据标注和训练，但上线后推理成本极低、延迟毫秒级、可私有部署，适合高并发；缺点是新增类别要重新标注训练，灵活性差。LLM 零样本几乎不需要标注、改提示就能加类别、上线快，但单条推理价格和延迟都高得多，大流量下成本敏感，且输出需要做格式约束与校验。所以高频稳定用前者、低频多变用后者，常混合使用。

Question 3

如何评估工单分类系统的效果，光看整体准确率够吗？

Accepted Answer

不够。整体准确率会被高频大类掩盖长尾表现，应看每个类别的精确率/召回率和混淆矩阵，重点关注容易混淆和高风险的类别（如紧急故障被分成普通）。还要结合业务指标：错派率、转派次数、SLA 达成率、人工复核纠正比例。对优先级和情绪识别这类影响处理时效的，要单独评估其漏判代价，并持续用人工复核样本监控线上漂移。

Question 4

工单里常夹带敏感信息，AI 分类时如何兼顾隐私与合规？

Accepted Answer

先做数据脱敏，分类前对手机号、身份证、订单等敏感字段做掩码或抽取替换，尽量只把判别所需的语义信息送入模型。对是否调用外部大模型 API 要评估数据出域风险，敏感业务可优先用私有化部署的小模型或本地化大模型。还要做好访问权限控制、日志留存与审计，明确数据保留期限，确保符合相应的隐私与合规要求。

智能工单分类系统中，AI 可参与哪些环节？技术选型思路是什么？

核心要点

标准回答

常见误区

追问

🔗 相似问题

延伸学习

核心术语