什么是模型窃取（Model Extraction）攻击？如何防御？

Question 1

Accepted Answer

定义

模型窃取（Model Extraction）指攻击者只能黑盒访问目标模型 API，却通过大量查询-响应对训练出一个能力相近的替身模型，从而「免费」复制对方耗费巨资训练的能力。它常被视为一种黑盒知识蒸馏。

攻击流程

返回的信息越丰富（如完整 logits），窃取效率越高。

防御手段

防御目标是提高攻击成本与可追责性，难以做到绝对阻断。

Question 2

模型窃取和知识蒸馏有什么关系？

Accepted Answer

两者机理相同：都用一个模型的输出当软标签去训练另一个模型。区别在于授权与意图——知识蒸馏是模型拥有者自愿用教师模型压缩出学生模型；模型窃取是未授权方通过 API 黑盒复制他人能力，侵犯知识产权。

Question 3

水印能阻止模型被窃取吗？

Accepted Answer

不能阻止窃取本身，水印的作用是事后归因。通过在模型输出或权重行为中嵌入隐蔽且可验证的标记，当怀疑某替身模型抄袭时，可用特定输入触发水印来举证其来源，主要服务于取证与法务追责。

核心要点