PII（个人身份信息）

能识别到人的隐私数据

亦作、亦称：个人身份信息 · Personally Identifiable Information

PII（个人身份信息，Personally Identifiable Information）指任何可单独或组合用于识别、追踪特定自然人身份的数据，涵盖姓名、证件号、生物特征等直接标识符，以及可与其他信息关联以定位个人的间接标识符。在 AI 系统的训练、推理与日志采集中，PII 治理是合规与安全的核心议题。

概述

定义与范围

PII 的核心在于「可识别性」，监管机构对其边界的划定存在细微差异。

直接标识符：姓名、护照号、社会安全号、生物特征（指纹、人脸）等，单独即可定位个人。
间接标识符：IP 地址、设备 ID、Cookie、位置数据等，需与其他信息结合才能识别个人。
NIST SP 800-122 定义（2010）：「任何机构维护的涉及个人的信息，包括可用于区分或追踪身份的信息，以及与个人相关联的其他信息。」
GDPR「个人数据」比传统 PII 更宽泛，涵盖所有与「可识别自然人」相关的信息，包括网络标识符和身份因素。
PII 与「个人数据」（Personal Data）在欧盟法规中并非完全等价——所有 PII 均为个人数据，反之不然。

分类体系

实践中通常将 PII 分为两个维度，便于风险评级与优先处置。

敏感 PII（SPII）：金融账号、医疗记录、生物特征、精确地理位置等，泄露后危害较大，需最高级别保护。
非敏感 PII：姓名、工作单位、电话号码等，公开渠道可获取，但组合后仍可识别个人。
准标识符（Quasi-identifier）：年龄、邮编、性别等单独看无害，Sweeney（2000）研究表明，仅凭「邮编+生日+性别」三字段即可唯一定位约 87% 的美国人口。
衍生 PII：由行为数据（浏览记录、购买轨迹）推断出的个人特征，属于新兴监管关注领域。
数据最小化是降低 PII 风险的根本原则——只收集、保留业务真正需要的字段。

AI 系统中的 PII 风险

大语言模型（LLM）和 AI 流水线在多个环节面临 PII 泄露或滥用风险。

训练数据记忆：LLM 可能记忆训练语料中的个人信息，并在推理时被特定提示词「提取」出来（成员推断攻击）。
RAG 入库污染：将含有 PII 的文档直接向量化入库，用户查询时可能命中并返回真实个人信息。
日志采集泄露：生产环境对话日志、请求体往往包含用户输入的 PII，若未脱敏即落存储则构成违规。
微调放大风险：在含有真实 PII 的私有数据集上微调，可能放大模型记忆特定个人数据的概率（Janus Interface 论文，2023）。
模型反演攻击：攻击者可通过精心构造的查询，尝试从模型权重中重建训练数据中的 PII 片段。

保护与脱敏技术

针对 PII 的技术防护手段覆盖识别、替换、删除和访问控制多个层次。

NER 脱敏：使用 spaCy、Flair 等命名实体识别模型自动标注 PII 字段，替换为占位符（如 [NAME]、[PHONE]）或合成替代值。
正则表达式模式匹配：针对格式固定的 PII（电话号码、信用卡号、身份证号）使用规则精准识别，召回率高。
差分隐私（DP-SGD）：在训练中注入校准噪声，使攻击者无法以高置信度推断特定个人数据是否出现在训练集。
k-匿名化与 l-多样性：确保发布数据集中每条记录至少与 k-1 条无法区分，防止准标识符重识别攻击。
Microsoft Presidio：开源 PII 检测与替换管道，支持自定义实体类型和多语言，是工业界常用工具。

合规与监管框架

全球主要司法管辖区对 PII 的保护均有明确法律要求，AI 产品须同时应对多套规则。

GDPR（欧盟，2018 年生效）：要求数据最小化、目的限制、合法处理依据；违规最高罚款 2000 万欧元或全球年营收 4%（取较高者）。
CCPA（美国加州，2020 年生效）：赋予居民查询、删除和拒绝出售个人信息的权利。
HIPAA（美国医疗领域）：将医疗相关 PII 定义为「受保护健康信息（PHI）」，规定 Safe Harbor 和 Expert Determination 两套去标识化标准。
中国《个人信息保护法》（PIPL，2021 年生效）：要求告知同意与数据本地化；对敏感个人信息（生物特征、医疗、金融）设置更高处理门槛。
AI 系统在上述框架下通常需完成数据保护影响评估（DPIA），并记录 PII 处理活动的合法依据。

LLM 全链路 PII 治理实践

从数据收集到模型上线，每个阶段均需落地具体的 PII 治理措施。

预训练阶段：爬取语料需过滤含真实个人信息的页面；Common Corpus 等大型开源语料项目已将 PII 清洗列为必要流程。
微调阶段：私有标注数据须脱敏后再用于训练；优先以合成数据替代真实用户数据。
推理与日志：设置输入/输出过滤层，实时检测并替换 PII；日志落地前执行脱敏，配合最短保留期限策略。
RAG 入库：文档向量化前完成 PII 审查；对含敏感信息的分块设置访问控制，按角色限制检索权限。
机器遗忘（Machine Unlearning）：当用户行使「被遗忘权」时，从模型或检索索引中移除其 PII；近期研究提出无需原始训练数据的选择性遗忘框架（如 DFSU，2026）。

发展脉络

PII 概念随信息技术和隐私立法的演进而持续扩展。

1974：美国《隐私法》首次在联邦立法层面规范政府机构对个人信息的处理。
1995：欧盟发布《数据保护指令》，确立「个人数据」法律定义，为 GDPR 奠基。
2000：Latanya Sweeney 发表准标识符研究，证明三字段组合可唯一定位 87% 美国人，奠定去匿名化风险理论基础。
2010：NIST 发布 SP 800-122，提供 PII 保护权威技术指南，成为美国联邦机构标准参考。
2018：GDPR 正式生效，将 PII 保护要求推向全球，催生企业级隐私工程实践。
2021：中国 PIPL 落地，要求境内处理个人信息的 AI 系统满足本地化与合规要求。
2023 年至今：LLM 大规模部署使「模型记忆 PII」成为新型隐私威胁，机器遗忘、差分隐私训练和运行时 PII 过滤成为研究与工程热点。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「能识别到人的隐私数据」
「手机号邮箱身份证这些」
「训练前必须脱敏的数据」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「PII」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。