核心要点

  • 通过大量查询目标模型 API、收集查询-响应对,训练一个功能近似的替身(surrogate)模型,窃取其能力与知识产权。

  • 本质是「黑盒蒸馏」:用受害模型的输出当软标签,逼近其决策边界,无需获取原始权重或训练数据。

  • 防御侧重抬高攻击成本:API 限流与配额、检测异常查询模式、对返回概率做扰动、加水印做溯源取证。

  • 没有单一手段能根治,需要监控-取证-法务多层结合,水印用于事后归因而非事前阻止。

标准回答

定义

模型窃取(Model Extraction)指攻击者只能黑盒访问目标模型 API,却通过大量查询-响应对训练出一个能力相近的替身模型,从而「免费」复制对方耗费巨资训练的能力。它常被视为一种黑盒知识蒸馏

攻击流程

  • 构造或采样大量查询输入,喂给目标 API;
  • 收集模型返回(标签、概率分布甚至生成文本)作为软标签;
  • 用这些查询-响应对训练本地替身模型,逼近目标的决策边界。

返回的信息越丰富(如完整 logits),窃取效率越高。

防御手段

  • 限流与配额:限制单位时间查询量,抬高大规模采集的成本与时间。
  • 异常查询检测:识别覆盖输入空间、分布异常或高熵的探测式查询。
  • 返回扰动:截断或加噪概率输出、只返回 top-1 标签,降低可窃取的信息量。
  • 水印:在模型行为中嵌入可验证标记,用于事后证明替身源自本模型。

防御目标是提高攻击成本与可追责性,难以做到绝对阻断。

常见误区

⚠️ 常见踩坑

别以为不开源权重就安全——模型窃取正是针对纯黑盒 API 的攻击;返回完整概率分布会大幅降低攻击者所需查询量,生产 API 应谨慎暴露 logits。

追问

追问 1模型窃取和知识蒸馏有什么关系?

两者机理相同:都用一个模型的输出当软标签去训练另一个模型。区别在于授权与意图——知识蒸馏是模型拥有者自愿用教师模型压缩出学生模型;模型窃取是未授权方通过 API 黑盒复制他人能力,侵犯知识产权。

追问 2水印能阻止模型被窃取吗?

不能阻止窃取本身,水印的作用是事后归因。通过在模型输出或权重行为中嵌入隐蔽且可验证的标记,当怀疑某替身模型抄袭时,可用特定输入触发水印来举证其来源,主要服务于取证与法务追责。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。