核心要点

  • 两类泄露:模型记忆并吐出训练数据中的隐私;以及提示/系统提示内容被诱导泄露。

  • 训练侧:对语料去重、扫描并清洗 PII,必要时用差分隐私(DP)限制单样本影响。

  • 推理侧:对输出做 PII 检测与过滤/脱敏,拦截敏感信息外泄。

  • 工程侧:系统提示与上下文中绝不放密钥/凭据,最小权限并审计访问。

标准回答

风险来源

LLM 的隐私泄露主要有两条路径:一是训练数据记忆,模型可能逐字记住语料中的隐私片段(如邮箱、电话、身份证),在特定提问下被「抽取」出来;二是提示泄露,攻击者通过越狱Prompt 注入诱导模型吐出系统提示、上下文或其中混入的密钥。

训练阶段防御

  • 去重:高重复样本更易被记忆,去重显著降低记忆风险。
  • PII 清洗:训练前扫描并移除/脱敏个人身份信息。
  • 差分隐私(DP):在训练中加噪,限制任一单样本对模型的可识别影响,提供形式化隐私保证。

推理阶段防御

  • 输出过滤:对生成内容做 PII/敏感信息检测,命中即脱敏或拦截。
  • 访问控制与审计:最小权限、记录审计日志,便于追责与发现异常抽取。

工程纪律

绝不把密钥、凭据、真实个人数据写进系统提示或上下文;敏感操作走后端而非交给模型「看见」。

常见误区

⚠️ 常见踩坑

别把机密(API Key、密码、内部数据)塞进系统提示来「让模型用」——上下文内容可被注入或越狱诱导泄露。系统提示不是保险箱,敏感凭据应放在模型上下文之外、由后端受控调用。

追问

追问 1差分隐私如何缓解训练数据泄露?

差分隐私在训练(如梯度更新)中注入校准噪声并裁剪,限制任一单条样本对最终模型的可辨识影响,使「模型是否见过某条数据」难以判定,从而降低逐字记忆与成员推断风险,代价是一定的精度损失。

追问 2怎么检测模型是否泄露了 PII?

可用 PII 识别器(正则+NER)扫描输出;做记忆/抽取测试,用已知训练片段的前缀诱导续写看是否吐出原文;用成员推断攻击评估隐私风险,并对线上输出持续监控与审计。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。