核心要点

  • 输入侧护栏:过滤 prompt 注入、敏感词、限流,把恶意/越界请求挡在前面

  • 输出侧护栏:审核毒性/PII 泄露、做格式校验、对事实性回答加兜底(拒答或附来源)

  • 范围限定 + 人审:用系统提示约束只答业务内问题、超范围就拒答;高风险动作(退款、医疗法律建议)走人工审核

  • 上线保障:全量日志 + 监控告警 + 灰度发布,出问题能快速发现和回滚

标准回答

输入侧(把坏请求挡在前面)

对用户输入先过一道:检测并拦截 prompt 注入(如「忽略以上指令」)、敏感/违法内容、明显的越界请求;加限流防刷接口和恶意压测。

输出侧(把坏回答挡在后面)

模型生成后再审一道:跑毒性/敏感内容检测,扫并脱敏 PII(手机号、身份证),对要求 JSON 等结构的做格式校验,校验失败重试或兜底。事实性强的场景给答案附来源或在不确定时主动说「不确定」。

范围限定

用系统提示明确角色边界——只回答本业务问题,遇到超范围/高风险问题就礼貌拒答,别让它乱给医疗、法律、投资建议。

人审 + 监控

高风险动作(涉钱、涉合规)必须人工二次确认;全链路记日志(输入、输出、调用),配监控和告警,盯异常率、拒答率、投诉。

灰度发布

先小流量灰度,观察指标正常再逐步放量,发现问题能立刻回滚,别一上来全量。

常见误区

⚠️ 常见踩坑

只在 prompt 里写「请不要说错话」就以为安全——单靠模型自律挡不住注入和滥用,必须有独立于模型的输入/输出过滤、人审和监控做硬护栏。

追问

追问 1怎么防 Prompt 注入?

把系统指令和用户输入清晰隔离,不让用户内容覆盖系统提示;对输入做检测过滤可疑指令模式;最小化模型权限(能调的工具、能访问的数据收紧);对工具调用结果也当不可信输入处理。再配合输出审核兜底。

追问 2上线后怎么持续发现问题?

记录全量对话日志并抽样人工审核;监控关键指标(异常/拒答/投诉率、毒性命中数)设告警;建 badcase 库持续回灌优化;定期做红队测试主动找漏洞,而不是等用户投诉。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。