核心要点

  • 在输出端用内容安全分类器 + 关键词/正则规则,审查毒性、违规、暴力色情等不当内容。

  • PII 检测与脱敏:识别并打码姓名、身份证、手机号、银行卡等个人身份信息,防止泄露。

  • 高风险场景叠加人工复核(human-in-the-loop),对模型不确定或敏感的输出转人审。

  • 全链路留存合规日志/审计追踪,满足监管与事后追溯,并标注 AI 生成内容。

标准回答

为什么需要输出审查

LLM 可能生成毒性、违规、偏见、隐私泄露或不合规内容。即便输入侧已有护栏,生成端仍需独立的一道审查,构成纵深防御。

审查手段(分类器 + 规则)

  • 内容安全分类器:用专门的毒性 / 违规 / 仇恨 / 暴力色情分类模型对输出打分拦截;
  • 规则与关键词:对明确违禁词、固定模式用正则 / 黑名单快速过滤,弥补分类器漏判;
  • PII 检测与脱敏:识别姓名、证件号、手机号、卡号等个人身份信息并打码或拒答。

人审与合规

  • 人工复核:高风险或低置信输出转人工(human-in-the-loop)二次把关;
  • 合规日志:记录输入、输出与拦截决策,保留审计追踪以满足监管与追责;
  • 内容标识:按规定对 AI 生成内容做显式标注。

实践要点

审查要双向(输入 + 输出)、分层(规则快筛 + 模型细判 + 人审兜底),并持续用红队测试发现绕过路径、迭代规则与模型。

常见误区

⚠️ 常见踩坑

别只靠模型自身「对齐」就认为输出安全——对齐可被越狱绕过,生产系统必须在输出端外挂独立的安全分类器、PII 脱敏与合规日志,并用红队持续测试绕过路径。

追问

追问 1为什么输出审查要同时用分类器和规则?

分类器擅长理解语义、覆盖灵活多变的不当内容,但有漏判和误判;规则/正则对明确的违禁词和固定模式响应快、确定性强,可兜住分类器的漏网之鱼,却难处理变体和语境。两者互补:规则快筛 + 分类器细判,再加人审兜底,才能在召回与精度间取得平衡。

追问 2内容安全审查中如何处理 PII?

先用命名实体识别 / 正则 / 专用 PII 检测器识别姓名、身份证号、手机号、银行卡号等敏感字段,再按策略脱敏(打码、替换占位符)或直接拒绝输出;同时在日志中也要对 PII 脱敏,避免审计日志本身成为新的泄露源,并满足数据合规要求。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。