核心要点
通过大量查询目标模型 API、收集查询-响应对,训练一个功能近似的替身(surrogate)模型,窃取其能力与知识产权。
本质是「黑盒蒸馏」:用受害模型的输出当软标签,逼近其决策边界,无需获取原始权重或训练数据。
防御侧重抬高攻击成本:API 限流与配额、检测异常查询模式、对返回概率做扰动、加水印做溯源取证。
没有单一手段能根治,需要监控-取证-法务多层结合,水印用于事后归因而非事前阻止。
标准回答
定义
模型窃取(Model Extraction)指攻击者只能黑盒访问目标模型 API,却通过大量查询-响应对训练出一个能力相近的替身模型,从而「免费」复制对方耗费巨资训练的能力。它常被视为一种黑盒知识蒸馏。
攻击流程
- 构造或采样大量查询输入,喂给目标 API;
- 收集模型返回(标签、概率分布甚至生成文本)作为软标签;
- 用这些查询-响应对训练本地替身模型,逼近目标的决策边界。
返回的信息越丰富(如完整 logits),窃取效率越高。
防御手段
- 限流与配额:限制单位时间查询量,抬高大规模采集的成本与时间。
- 异常查询检测:识别覆盖输入空间、分布异常或高熵的探测式查询。
- 返回扰动:截断或加噪概率输出、只返回 top-1 标签,降低可窃取的信息量。
- 水印:在模型行为中嵌入可验证标记,用于事后证明替身源自本模型。
防御目标是提高攻击成本与可追责性,难以做到绝对阻断。
常见误区
⚠️ 常见踩坑
别以为不开源权重就安全——模型窃取正是针对纯黑盒 API 的攻击;返回完整概率分布会大幅降低攻击者所需查询量,生产 API 应谨慎暴露 logits。
追问
追问 1:模型窃取和知识蒸馏有什么关系?
两者机理相同:都用一个模型的输出当软标签去训练另一个模型。区别在于授权与意图——知识蒸馏是模型拥有者自愿用教师模型压缩出学生模型;模型窃取是未授权方通过 API 黑盒复制他人能力,侵犯知识产权。
追问 2:水印能阻止模型被窃取吗?
不能阻止窃取本身,水印的作用是事后归因。通过在模型输出或权重行为中嵌入隐蔽且可验证的标记,当怀疑某替身模型抄袭时,可用特定输入触发水印来举证其来源,主要服务于取证与法务追责。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。