一个 AI 功能上线前，怎么防止它说错话或被滥用？

Question 1

Accepted Answer

输入侧（把坏请求挡在前面） 对用户输入先过一道：检测并拦截 prompt 注入（如「忽略以上指令」）、敏感/违法内容、明显的越界请求；加限流防刷接口和恶意压测。 输出侧（把坏回答挡在后面） 模型生成后再审一道：跑毒性/敏感内容检测，扫并脱敏 PII（手机号、身份证），对要求 JSON 等结构的做格式校验，校验失败重试或兜底。事实性强的场景给答案附来源或在不确定时主动说「不确定」。 范围限定 用系统提示明确角色边界——只回答本业务问题，遇到超范围/高风险问题就礼貌拒答，别让它乱给医疗、法律、投资建议。 人审 + 监控 高风险动作（涉钱、涉合规）必须人工二次确认；全链路记日志（输入、输出、调用），配监控和告警，盯异常率、拒答率、投诉。 灰度发布 先小流量灰度，观察指标正常再逐步放量，发现问题能立刻回滚，别一上来全量。

Question 2

怎么防 Prompt 注入？

Accepted Answer

把系统指令和用户输入清晰隔离，不让用户内容覆盖系统提示；对输入做检测过滤可疑指令模式；最小化模型权限（能调的工具、能访问的数据收紧）；对工具调用结果也当不可信输入处理。再配合输出审核兜底。

Question 3

上线后怎么持续发现问题？

Accepted Answer

记录全量对话日志并抽样人工审核；监控关键指标（异常/拒答/投诉率、毒性命中数）设告警；建 badcase 库持续回灌优化；定期做红队测试主动找漏洞，而不是等用户投诉。

一个 AI 功能上线前，怎么防止它说错话或被滥用？

核心要点

标准回答

常见误区

追问

延伸学习