核心要点

  • 分层处置:规则/黑名单做高确定性快拦,多模态分类器(文本/图像/视频/音频)做概率判别,疑难样本升级人审

  • 按风险分级设阈值:高危内容(如违法)高召回宁可误杀,灰色内容走人审,平衡 Recall 与误杀(Precision

  • 对抗规避要常态化:变体词/谐音/拼图/嵌字图片层出不穷,需主动学习挖掘 badcase + 定期红队对抗 + 模型滚动更新

  • 闭环必备:用户举报、人审反馈、申诉与纠错回流标注,形成数据飞轮,并保证审核时效(先发后审/先审后发分场景)

标准回答

需求与指标

对 UGC(文本/图像/视频/音频)做合规与安全审核。核心权衡是召回(漏放有害内容的代价)与误杀(错杀正常内容伤害体验);还要关注时效(实时拦截 vs 异步复审)与对抗鲁棒性

整体架构

分层流水线:第一层规则与黑名单引擎做高确定性快拦(违禁词、哈希命中已知违规素材);第二层多模态分类器对文本、图像、视频帧、音频转写并行打分;第三层按风险分级路由——高分直接处置、灰色区间升级人审。

关键模块

多模态分类:文本走分类模型/LLM,图像视频走视觉模型,音频先 ASR 再过文本链路;风险分级:不同品类设不同阈值,高危从严;人审与申诉:疑难样本进人审队列,用户可申诉并触发复核。

评估

离线用分品类标注集看 Recall/Precision/F1,重点盯高危品类漏检率与整体误杀率;定期红队构造对抗变体测鲁棒性。

上线与监控

灰度 + A/B;监控各品类拦截量、人审积压、申诉改判率与误杀投诉;对抗样本和 badcase 持续回流标注、滚动重训,保证模型跟上规避手法。

常见误区

⚠️ 常见踩坑

只追求高准确率而不分品类设阈值——高危内容需高召回、灰色内容需低误杀,一刀切阈值必然两头不讨好;以及忽视对抗规避,模型不滚动更新很快被变体词和嵌字图绕过。

追问

追问 1召回和误杀(精确率)如何权衡?

按风险分级而非全局取一个阈值:高危违法内容设高召回阈值,宁可误杀也要拦住,误杀部分由申诉与人审纠正;低危/灰色内容设保守阈值,避免伤害正常用户体验。中间区间一律升级人审,用人工判断换取两端指标都达标。

追问 2如何应对对抗规避(变体词、嵌字图片)?

文本侧做归一化(去零宽字符、谐音/形近还原)并训练对抗样本;图像侧用 OCR 提取嵌字 + 视觉模型识别拼图躲避;建立红队机制定期构造新变体,把线上漏检 badcase 快速回流主动学习标注并滚动重训,缩短「新规避手法→被覆盖」的周期。

追问 3实时性要求高的场景如何设计?

分场景:直播/弹幕等高时效走「先审轻拦截」——规则与轻量模型在毫秒级先过,重模型与人审异步复核后追加处置;普通发帖可「先发后审」用异步队列。用语义缓存和已知违规素材哈希命中加速,重内容批量化推理控成本,保证主链路低延迟

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。