核心要点
AI 供应链覆盖预训练权重、数据集、第三方依赖库、模型仓库与运行时镜像,每一环都是攻击面。
典型风险:投毒的预训练权重(带后门)、被污染的开源数据集、被劫持的 PyPI/npm 依赖、被篡改的模型仓库制品。
防御核心是「可信来源 + 完整性校验」:来源校验、对权重/制品做数字签名与哈希校验。
工程化手段:生成并审查 SBOM(软件物料清单)、对依赖与模型做安全扫描,建立审计追溯。
标准回答
什么是 AI 供应链风险
现代 AI 系统极少从零构建:会复用预训练权重、开源数据集、第三方库、模型仓库(如 Hugging Face)与容器镜像。这条供应链中任一环节被污染,恶意行为都会传导进最终系统。
主要攻击面
- 预训练权重投毒:下载的权重被植入后门,干净输入正常、带触发器即失控;
- 数据集污染:开源/爬取数据集被注入投毒样本或恶意内容;
- 依赖库劫持:PyPI/npm 等依赖被抢注、投毒或恶意更新(典型的开源依赖投毒);
- 模型仓库制品篡改:仓库中的模型文件或配置被替换,或反序列化时执行恶意代码。
防御手段
- 来源校验:只用可信来源,核对发布者与版本;
- 签名与完整性校验:对权重、制品、依赖做数字签名和哈希校验,防篡改;
- SBOM:生成软件/模型物料清单,明确每个组件来源与版本,便于审计与漏洞响应;
- 安全扫描:对依赖、模型文件、镜像做漏洞与恶意代码扫描,并保留审计日志。
常见误区
⚠️ 常见踩坑
别把 AI 供应链安全简单等同于传统软件依赖扫描——除了代码依赖,预训练权重和训练数据集同样会被投毒,而它们的恶意行为(如后门)无法靠常规漏洞扫描发现,需专门的来源校验与后门检测。
追问
追问 1:SBOM 在 AI 供应链安全中起什么作用?
SBOM(软件物料清单)记录系统使用的所有组件及其来源、版本与依赖关系,对 AI 系统还应扩展到模型权重与数据集。它让供应链「可见、可审计」:一旦某组件曝出漏洞或投毒,可快速定位受影响范围、追溯来源并响应,是供应链治理与合规的基础。
追问 2:为什么加载第三方模型权重也可能执行恶意代码?
部分序列化格式(如 Python pickle)在反序列化时可执行任意代码,加载被篡改的权重文件就可能触发恶意逻辑。因此应优先使用安全格式(如 safetensors)、对权重做签名与哈希校验,并在隔离环境中加载不可信来源的模型。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。