标准回答
需求与指标
对 UGC(文本/图像/视频/音频)做合规与安全审核。核心权衡是召回(漏放有害内容的代价)与误杀(错杀正常内容伤害体验);还要关注时效(实时拦截 vs 异步复审)与对抗鲁棒性。
整体架构
分层流水线:第一层规则与黑名单引擎做高确定性快拦(违禁词、哈希命中已知违规素材);第二层多模态分类器对文本、图像、视频帧、音频转写并行打分;第三层按风险分级路由——高分直接处置、灰色区间升级人审。
关键模块
多模态分类:文本走分类模型/LLM,图像视频走视觉模型,音频先 ASR 再过文本链路;风险分级:不同品类设不同阈值,高危从严;人审与申诉:疑难样本进人审队列,用户可申诉并触发复核。
评估
离线用分品类标注集看 Recall/Precision/F1,重点盯高危品类漏检率与整体误杀率;定期红队构造对抗变体测鲁棒性。
上线与监控
灰度 + A/B;监控各品类拦截量、人审积压、申诉改判率与误杀投诉;对抗样本和 badcase 持续回流标注、滚动重训,保证模型跟上规避手法。
常见误区
⚠️ 常见踩坑
只追求高准确率而不分品类设阈值——高危内容需高召回、灰色内容需低误杀,一刀切阈值必然两头不讨好;以及忽视对抗规避,模型不滚动更新很快被变体词和嵌字图绕过。
追问
追问 1:召回和误杀(精确率)如何权衡?
按风险分级而非全局取一个阈值:高危违法内容设高召回阈值,宁可误杀也要拦住,误杀部分由申诉与人审纠正;低危/灰色内容设保守阈值,避免伤害正常用户体验。中间区间一律升级人审,用人工判断换取两端指标都达标。
追问 2:如何应对对抗规避(变体词、嵌字图片)?
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
🛠️ AI 工具
- Recall
为 Claude Code 提供持久化记忆能力,完全离线运行,避免每次会话重复解释项目上下文。468 stars。