如何设计一个内容审核（Content Moderation）系统？

Question 1

Accepted Answer

需求与指标 对 UGC（文本/图像/视频/音频）做合规与安全审核。核心权衡是召回（漏放有害内容的代价）与误杀（错杀正常内容伤害体验）；还要关注时效（实时拦截 vs 异步复审）与对抗鲁棒性。 整体架构 分层流水线：第一层规则与黑名单引擎做高确定性快拦（违禁词、哈希命中已知违规素材）；第二层多模态分类器对文本、图像、视频帧、音频转写并行打分；第三层按风险分级路由——高分直接处置、灰色区间升级人审。 关键模块 多模态分类：文本走分类模型/LLM，图像视频走视觉模型，音频先 ASR 再过文本链路；风险分级：不同品类设不同阈值，高危从严；人审与申诉：疑难样本进人审队列，用户可申诉并触发复核。 评估 离线用分品类标注集看 Recall/Precision/F1，重点盯高危品类漏检率与整体误杀率；定期红队构造对抗变体测鲁棒性。 上线与监控 灰度 + A/B；监控各品类拦截量、人审积压、申诉改判率与误杀投诉；对抗样本和 badcase 持续回流标注、滚动重训，保证模型跟上规避手法。

Question 2

召回和误杀（精确率）如何权衡？

Accepted Answer

按风险分级而非全局取一个阈值：高危违法内容设高召回阈值，宁可误杀也要拦住，误杀部分由申诉与人审纠正；低危/灰色内容设保守阈值，避免伤害正常用户体验。中间区间一律升级人审，用人工判断换取两端指标都达标。

Question 3

如何应对对抗规避（变体词、嵌字图片）？

Accepted Answer

文本侧做归一化（去零宽字符、谐音/形近还原）并训练对抗样本；图像侧用 OCR 提取嵌字 + 视觉模型识别拼图躲避；建立红队机制定期构造新变体，把线上漏检 badcase 快速回流主动学习标注并滚动重训，缩短「新规避手法→被覆盖」的周期。

Question 4

实时性要求高的场景如何设计？

Accepted Answer

分场景：直播/弹幕等高时效走「先审轻拦截」——规则与轻量模型在毫秒级先过，重模型与人审异步复核后追加处置；普通发帖可「先发后审」用异步队列。用语义缓存和已知违规素材哈希命中加速，重内容批量化推理控成本，保证主链路低延迟。

如何设计一个内容审核（Content Moderation）系统？

核心要点

标准回答

常见误区

追问

延伸学习