专利 一种有效避开对深度学习模型的所有权检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210696213.7 (22)申请日 2022.06.20 (71)申请人华东师范大学地址 200241 上海市闵行区东川路5 00号 (72)发明人顾雯雯　殷文轩　钱海峰　 (74)专利代理机构上海蓝迪专利商标事务所 (普通合伙) 31215 专利代理师徐筱梅　张翔 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/764(2022.01) G06V 10/74(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06N 5/04(2006.01) (54)发明名称一种有效避开对深度学习模型的所有权检测方法 (57)摘要本发明公开了一种有效避开对深度学习模型的所有权检测方法，其特点是该所有权检测方法，采用找到合适的数据池来微调对手模型的决策边界使数据集推理置信度下降且不降低模型的精度，具体包括：训练受害者模型、考虑攻击方法和模型架构、训练对手模型及数据集推理、模型逆演、计算EWC损失、对手模型微调和推理并得出结论等步骤。本发明与现有技术相比具有避开数据集推理的检测，运用了弹性权重巩固方法，使在修改决策边界的同时能控制模型测试精度不会大幅度下降，方法简便，效果显著，具有广泛的应用前景，可进一步发展到一个更现实的场合：黑盒设置和高分辨率图像。权利要求书2页说明书7页附图1页 CN 114972926 A 2022.08.30 CN 114972926 A 1.一种有效避开对深度学习模型的所有权检测方法，其特征在于采用弹性权重巩固方法，找到合适的数据池来微调对手模型的决策边界，使数据集推理置信度下降且不降低模型的精度，使在修改决策边界的同时能控制模型测试精度，该方法具体包括下述步骤：步骤1：训练受害者模型选择一个卷积层总数为28，加宽因子为10的残差网络WRN ‑28‑10，数据集选择的是 CIFAR10、 CIFAR 100和Imagenet12；步骤2：考虑攻击方法和模型架构根据目标模型的不同权限级别以及攻击方法，确定如下的对手模型架构： 1)数据可访问攻击对手使用知识蒸馏来训练学生模型或从头开始训练新模型，其模型架构选择ResNet； 2)模型可访问攻击对手可以通过零知识精馏来训练复制，或者使用一个本地独立的数据集来微调目标模型，对于零知识蒸馏攻击者，模型架构选择CIFAR10上的WRN ‑16‑1和CIFAR100上的WRN ‑16‑ 2；对于微调攻击者，模型架构选择WRN ‑28‑10； 3)仅查询攻击根据API返回的表单有仅标签攻击和仅日志攻击两种类型，其模型架构选择CIFA R10上的WRN‑16‑1和CIFAR 100上的WRN ‑16‑2；步骤3：训练对手模型根据攻击的类型，采用下述不同的训练方法： 1)对于数据可访问攻击，直接在原始训练数据集上训练两个模型，进行100个迭代周期； 2)对于零知识蒸馏攻击，使用无数据的对抗性蒸馏方法，并对该模型进行500个迭代周期训练；对于微调攻击，使用未标记的Ti nyimages，在5个训练周期后接近CIFAR； 3)对于仅查询攻击，使用未标记的Ti nyimages，其训练周期为20个；步骤4：对手模型的数据集推理 1)考虑一个N类的任务，对于训练数据集中的每个样本(x,y)， DI首先生成它到每个类的距离，基于受害者对目标模型内部梯度的访问， DI执行两种生成方法： MinGD和Blind Walk，分别代表白盒和黑盒；在 MinGD中， DI通过minδd(x,x+δ )s.t.f(x+δ )＝m获得到目标类 m的最小距离δm；在Blind Walk中， D I选定一个初始方向δ，并沿着这个方向走k步直到f(x+k δ )＝m， δm＝k δ表示y到m的距离，其中度量( δ1, δ2,…, δN)为嵌入到目标模型中的特征； 2)受害者从其私有训练数据集和公共数据集中随机选择相同数量的样本，并计算其自身模型的嵌入向量，并标记为 ‑1或1，用于训练一个二值分类器； 3)验证阶段，受害者从私人和公共数据集中选择相同数量的样本，计算其对手模型的特征向量，并将其输入二值分类器，计算置信度得分 μV和 μ；受害者进行零假设H0: μ< μV，得到 p值，如果p值低于显著水平α，则拒绝H0，并将对手模型标记为被盗；步骤5：对手模型进行模型逆演生成与原始训练样本相似的合成图像 1)通过输入与训练数据大小相同的初始随机噪声和目标标签y，从对手模型fA中恢复的图像，通过优化来合成，其中λ1、 λ2和λ3分别为分类损失批处理规范化正则化和对抗性损失的惩罚系数；权　利　要　求　书 1/2 页 2 CN 114972926 A 22)使用度量Q来定量分析合成图像与原始训练样本之间的差异，所述度量Q由下述(a) 式计算：式中，为交叉熵损失；为合成图像在预测向量中的最大置信值； 3)将合成图像按度量Q进行非降序排序，选取前K个样本作为最相似的样本，将其表示为核心集DC，其余为样本集DO；步骤6：计算EWC损失 1)选择概率最高的样本来近似先前任务的费雪信息矩阵F，所述费雪信息矩阵F＝ [Fij]n×n，其Fij由下述(b)式计算：式中， f(x|θ )为输入为x；参数为θ的模型的输出； D为整个训练数据集；为一阶偏导数，表示第i层参数的梯度变化值的期望； 2)选择费雪信息矩阵F的对角线为每个参数的贡献，所述费雪信息矩阵F的对角线Fi由下述(c)式计算：式中， θ*为先前任务的模型参数； θ为模型参数； Fii为费雪信息矩阵第i行第i列的值； Ex～D为该数据分布下的数学期望； 3)在损失函数中添加一个正则化项来训练一个新的任务，所述损失函数由下述(d)式计算：其中，为优化新任务的交叉熵损失； λ是一个控制先前任务重要性的参数； Fi为先前任务的费雪信息矩阵的对角线，代表了参数θ*在先前任务上的重要性， i表示每个参数；步骤7：运用EWC方法和DO数据集对对手模型进行微调选择DC来近似费雪信息矩阵F，运用EWC方法和DO数据集对对手模型进行微调，更新所有层的权重，得到微调后的对手模型；步骤8：对微调后的对手模型进行数据集推理并得出结论对于微调后的对手模型采用步骤4的数据集推理，其推理结果为未被盗，则该模型有效，否则该模型无效，不能避开数据集推理的检测。权　利　要　求　书 2/2 页 3 CN 114972926 A 3

专利 一种有效避开对深度学习模型的所有权检测方法

专利一种有效避开对深度学习模型的所有权检测方法