如何对 LLM 输出做内容安全与合规审查？

Question 1

Accepted Answer

为什么需要输出审查 LLM 可能生成毒性、违规、偏见、隐私泄露或不合规内容。即便输入侧已有护栏，生成端仍需独立的一道审查，构成纵深防御。 审查手段（分类器 + 规则） - 内容安全分类器：用专门的毒性 / 违规 / 仇恨 / 暴力色情分类模型对输出打分拦截； - 规则与关键词：对明确违禁词、固定模式用正则 / 黑名单快速过滤，弥补分类器漏判； - PII 检测与脱敏：识别姓名、证件号、手机号、卡号等个人身份信息并打码或拒答。 人审与合规 - 人工复核：高风险或低置信输出转人工（human-in-the-loop）二次把关； - 合规日志：记录输入、输出与拦截决策，保留审计追踪以满足监管与追责； - 内容标识：按规定对 AI 生成内容做显式标注。 实践要点 审查要双向（输入 + 输出）、分层（规则快筛 + 模型细判 + 人审兜底），并持续用红队测试发现绕过路径、迭代规则与模型。

Question 2

为什么输出审查要同时用分类器和规则？

Accepted Answer

分类器擅长理解语义、覆盖灵活多变的不当内容，但有漏判和误判；规则/正则对明确的违禁词和固定模式响应快、确定性强，可兜住分类器的漏网之鱼，却难处理变体和语境。两者互补：规则快筛 + 分类器细判，再加人审兜底，才能在召回与精度间取得平衡。

Question 3

内容安全审查中如何处理 PII？

Accepted Answer

先用命名实体识别 / 正则 / 专用 PII 检测器识别姓名、身份证号、手机号、银行卡号等敏感字段，再按策略脱敏（打码、替换占位符）或直接拒绝输出；同时在日志中也要对 PII 脱敏，避免审计日志本身成为新的泄露源，并满足数据合规要求。

如何对 LLM 输出做内容安全与合规审查？

核心要点

标准回答

常见误区

追问

延伸学习