核心要点
在输出端用内容安全分类器 + 关键词/正则规则,审查毒性、违规、暴力色情等不当内容。
PII 检测与脱敏:识别并打码姓名、身份证、手机号、银行卡等个人身份信息,防止泄露。
高风险场景叠加人工复核(human-in-the-loop),对模型不确定或敏感的输出转人审。
全链路留存合规日志/审计追踪,满足监管与事后追溯,并标注 AI 生成内容。
标准回答
为什么需要输出审查
LLM 可能生成毒性、违规、偏见、隐私泄露或不合规内容。即便输入侧已有护栏,生成端仍需独立的一道审查,构成纵深防御。
审查手段(分类器 + 规则)
- 内容安全分类器:用专门的毒性 / 违规 / 仇恨 / 暴力色情分类模型对输出打分拦截;
- 规则与关键词:对明确违禁词、固定模式用正则 / 黑名单快速过滤,弥补分类器漏判;
- PII 检测与脱敏:识别姓名、证件号、手机号、卡号等个人身份信息并打码或拒答。
人审与合规
- 人工复核:高风险或低置信输出转人工(human-in-the-loop)二次把关;
- 合规日志:记录输入、输出与拦截决策,保留审计追踪以满足监管与追责;
- 内容标识:按规定对 AI 生成内容做显式标注。
实践要点
审查要双向(输入 + 输出)、分层(规则快筛 + 模型细判 + 人审兜底),并持续用红队测试发现绕过路径、迭代规则与模型。
追问
追问 1:为什么输出审查要同时用分类器和规则?
分类器擅长理解语义、覆盖灵活多变的不当内容,但有漏判和误判;规则/正则对明确的违禁词和固定模式响应快、确定性强,可兜住分类器的漏网之鱼,却难处理变体和语境。两者互补:规则快筛 + 分类器细判,再加人审兜底,才能在召回与精度间取得平衡。
追问 2:内容安全审查中如何处理 PII?
先用命名实体识别 / 正则 / 专用 PII 检测器识别姓名、身份证号、手机号、银行卡号等敏感字段,再按策略脱敏(打码、替换占位符)或直接拒绝输出;同时在日志中也要对 PII 脱敏,避免审计日志本身成为新的泄露源,并满足数据合规要求。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。