摘要
本发明提供一种基于模型决策边界的通用模型窃取防御方法及系统,包括:训练阶段:获得用户预测样本,将样本和云平台模型针对预测样本的置信度分布向量作为输入,输出原始扰动样本;将原始扰动样本添加到用户预测样本,作为输入得到迭代扰动样本;推理阶段:当原始置信度分布向量得到的预测标签和隐藏置信度分布得到的预测标签相同时,则继续迭代;当不同时则停止迭代,根据迭代次数确定预测样本到决策边界的距离;根据得到的距离与给定的比较结果确定恶意样本;返回恶意样本扰动置信度分布向量,并限制该用户访问。本发明在不改变目标模型输出标签下,最大程度改变了目标模型输出置信度分布向量,以降低窃取模型的可用性。