标准回答
输入侧(把坏请求挡在前面)
对用户输入先过一道:检测并拦截 prompt 注入(如「忽略以上指令」)、敏感/违法内容、明显的越界请求;加限流防刷接口和恶意压测。
输出侧(把坏回答挡在后面)
模型生成后再审一道:跑毒性/敏感内容检测,扫并脱敏 PII(手机号、身份证),对要求 JSON 等结构的做格式校验,校验失败重试或兜底。事实性强的场景给答案附来源或在不确定时主动说「不确定」。
范围限定
用系统提示明确角色边界——只回答本业务问题,遇到超范围/高风险问题就礼貌拒答,别让它乱给医疗、法律、投资建议。
人审 + 监控
高风险动作(涉钱、涉合规)必须人工二次确认;全链路记日志(输入、输出、调用),配监控和告警,盯异常率、拒答率、投诉。
灰度发布
先小流量灰度,观察指标正常再逐步放量,发现问题能立刻回滚,别一上来全量。
常见误区
⚠️ 常见踩坑
只在 prompt 里写「请不要说错话」就以为安全——单靠模型自律挡不住注入和滥用,必须有独立于模型的输入/输出过滤、人审和监控做硬护栏。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。