核心要点

  • 可参与环节:自动分类与打标签(类别/优先级/部门)、意图与情绪识别、自动路由派单、相似工单聚合与去重

  • 辅助处理:知识推荐辅助坐席、生成自动回复草稿、SLA 风险预警与升级提醒

  • 轻量模型路线:类别固定且样本充足的高频场景,用微调BERT 等分类模型,成本低、延迟稳、可控

  • LLM 路线:类别复杂、样本稀少或需要推理理解时,用大模型做零样本/少样本分类,灵活但成本与延迟更高

  • 混合与闭环:模型初分 + LLM 兜底疑难,配合准确率评估和人工复核纠错,持续回流数据迭代

标准回答

AI 能参与工单流程的哪些环节

工单系统从进单到关单是一条流水线,AI 能嵌入其中的多个节点。最核心的是自动分类与打标签:判断工单类别(计费、物流、技术故障…)、优先级(紧急/普通)、应归属的部门,替代人工初分。在此基础上还能做意图与情绪识别,识别用户到底想做什么、情绪是否激烈,给愤怒投诉打高优先级。

往下游延伸,AI 可做自动路由派单,按分类结果和坐席技能/负载把工单分给最合适的人;做相似工单聚合与去重,把同一问题的重复反馈合并,发现批量故障;为坐席做知识推荐,匹配相关解决方案;生成自动回复草稿让坐席改改就发;还能结合处理时长做SLA 风险预警,对快超时的工单提前升级提醒。整体上 AI 既能在前端做理解归类,也能在中后端做辅助处理。

技术选型:先看类别是否固定、样本是否充足

选型的第一性判断是任务特征。如果类别固定、数据充足、是高频稳定场景(比如就那十几个明确品类),用轻量分类模型最划算——拿历史工单微调一个 BERT/小型文本分类模型,准确率高、推理延迟低、单条成本几乎可忽略,且结果稳定可控,适合大流量在线分类。

如果场景类别复杂多变、样本稀少、新类别频繁出现,或需要一定推理理解(比如要读懂一段含糊描述才能定级),微调模型要么没数据要么维护成本高,这时用大模型做零样本/少样本分类更合适:把类别定义写进提示,让 LLM 直接判断,无需大量标注、能处理没见过的情况、还能顺带给出理由。代价是延迟更高、单价更贵。

混合编排 + 人工复核闭环

实务中两条路线常混合:用轻量模型对绝大多数工单做高吞吐初分,对置信度低、判为疑难或新类别的少数工单再交给 LLM 做兜底判断,兼顾成本与覆盖。同时必须建评估与复核闭环:用准确率、混淆矩阵盯住效果,对模型不确定或高风险的工单引入人工复核,把纠正后的标签回流成训练/评测数据,持续迭代。这样系统才能在成本可控的前提下越用越准。

常见误区

⚠️ 常见踩坑

别一上来就用 LLM 给所有工单分类——类别固定、流量巨大的高频场景,微调小模型又快又便宜又稳定,全量上大模型纯属浪费成本和延迟。反过来,也别迷信微调分类模型能搞定一切:类别频繁变动、样本极少的长尾场景硬堆数据维护成本极高,这时 LLM 的少样本能力才是正解。更不能上线后不评估、不留人工复核,分类一旦系统性偏差会把工单大批错派,且没有纠错回流就无法迭代。

追问

追问 1微调 BERT 类模型和用 LLM 零样本分类,在工程上各有哪些成本差异?

微调小模型前期要投入数据标注和训练,但上线后推理成本极低、延迟毫秒级、可私有部署,适合高并发;缺点是新增类别要重新标注训练,灵活性差。LLM 零样本几乎不需要标注、改提示就能加类别、上线快,但单条推理价格和延迟都高得多,大流量下成本敏感,且输出需要做格式约束与校验。所以高频稳定用前者、低频多变用后者,常混合使用。

追问 2如何评估工单分类系统的效果,光看整体准确率够吗?

不够。整体准确率会被高频大类掩盖长尾表现,应看每个类别的精确率/召回率和混淆矩阵,重点关注容易混淆和高风险的类别(如紧急故障被分成普通)。还要结合业务指标:错派率、转派次数、SLA 达成率、人工复核纠正比例。对优先级和情绪识别这类影响处理时效的,要单独评估其漏判代价,并持续用人工复核样本监控线上漂移。

追问 3工单里常夹带敏感信息,AI 分类时如何兼顾隐私与合规?

先做数据脱敏,分类前对手机号、身份证、订单等敏感字段做掩码或抽取替换,尽量只把判别所需的语义信息送入模型。对是否调用外部大模型 API 要评估数据出域风险,敏感业务可优先用私有化部署的小模型或本地化大模型。还要做好访问权限控制、日志留存与审计,明确数据保留期限,确保符合相应的隐私与合规要求。

🔗 相似问题

同一考点的不同问法,面试官可能换着问,一起刷更稳

没找到想看的面试题?把你想看的告诉我们 →

延伸学习

按主题分类的相关资源,便于系统复习