LLM 应用如何防止训练数据与 PII 泄露？

Question 1

Accepted Answer

风险来源 LLM 的隐私泄露主要有两条路径：一是训练数据记忆，模型可能逐字记住语料中的隐私片段（如邮箱、电话、身份证），在特定提问下被「抽取」出来；二是提示泄露，攻击者通过越狱或 Prompt 注入诱导模型吐出系统提示、上下文或其中混入的密钥。 训练阶段防御 - 去重：高重复样本更易被记忆，去重显著降低记忆风险。 - PII 清洗：训练前扫描并移除/脱敏个人身份信息。 - 差分隐私（DP）：在训练中加噪，限制任一单样本对模型的可识别影响，提供形式化隐私保证。 推理阶段防御 - 输出过滤：对生成内容做 PII/敏感信息检测，命中即脱敏或拦截。 - 访问控制与审计：最小权限、记录审计日志，便于追责与发现异常抽取。 工程纪律 绝不把密钥、凭据、真实个人数据写进系统提示或上下文；敏感操作走后端而非交给模型「看见」。

Question 2

差分隐私如何缓解训练数据泄露？

Accepted Answer

差分隐私在训练（如梯度更新）中注入校准噪声并裁剪，限制任一单条样本对最终模型的可辨识影响，使「模型是否见过某条数据」难以判定，从而降低逐字记忆与成员推断风险，代价是一定的精度损失。

Question 3

怎么检测模型是否泄露了 PII？

Accepted Answer

可用 PII 识别器（正则+NER）扫描输出；做记忆/抽取测试，用已知训练片段的前缀诱导续写看是否吐出原文；用成员推断攻击评估隐私风险，并对线上输出持续监控与审计。

LLM 应用如何防止训练数据与 PII 泄露？

核心要点

标准回答

常见误区

追问

延伸学习