用第三方大模型 API 时，如何保护敏感 / 隐私数据？

Question 1

Accepted Answer

核心思路 把「哪些数据真的需要发出去」降到最低，发出去的也尽量不含可识别身份的信息，再用合同和合规手段兜底。 分层措施 1. 数据最小化：只把完成任务必需的字段传给 API，无关的敏感信息一律不发。 2. 脱敏 / 掩码：调用前用规则或工具识别并去除/替换 PII（姓名、手机号、身份证、银行卡等），必要时用占位符替代、拿到结果再还原。 3. 分级处理：最敏感的数据（如完整身份、病历、核心商业机密）不走第三方，改用本地或私有部署模型在内网处理。 4. 合规与协议：与服务商签 DPA（数据处理协议）、选择合规的数据存储区域、开启 opt-out 确保你的数据不被用于训练，并满足 GDPR、数据出境等监管要求。 5. 安全工程：全程 HTTPS 传输加密，做好密钥与访问控制（最小权限），日志要脱敏并设定留存与销毁策略，避免敏感信息落在日志里。 参考 AI 训练数据治理与合规。

Question 2

脱敏后还原会带来什么问题，怎么处理？

Accepted Answer

用占位符替换 PII（如把姓名换成 [NAME_1]）再调用，拿到结果后按映射表还原。要保证占位符唯一且一致，避免冲突；映射表只在本地内存/安全存储中短暂保存，用完即清，不要写进日志。

Question 3

为什么一定要确认「是否用于训练」并签 DPA？

Accepted Answer

如果服务商默认用你的输入做训练，敏感数据可能被模型记住甚至在他人对话中泄露，也违反合规。开启 opt-out 并签 DPA，能在法律和技术上明确数据用途、存储、删除责任，是企业合规接入第三方 API 的底线。

用第三方大模型 API 时，如何保护敏感 / 隐私数据？

核心要点

标准回答

常见误区

追问

延伸学习