(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210696213.7
(22)申请日 2022.06.20
(71)申请人 华东师范大学
地址 200241 上海市闵行区东川路5 00号
(72)发明人 顾雯雯 殷文轩 钱海峰
(74)专利代理 机构 上海蓝迪专利商标事务所
(普通合伙) 31215
专利代理师 徐筱梅 张翔
(51)Int.Cl.
G06V 10/774(2022.01)
G06V 10/764(2022.01)
G06V 10/74(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06N 5/04(2006.01)
(54)发明名称
一种有效避开对深度学习模型的所有权检
测方法
(57)摘要
本发明公开了一种有效避开对深度学习模
型的所有权检测方法, 其特点是该所有权检测方
法, 采用找到合适的数据池来微调对手模型的决
策边界使数据集推理置信度下 降且不降低模型
的精度, 具体包括: 训练受害 者模型、 考虑攻击方
法和模型架构、 训练对手模型及数据集推理、 模
型逆演、 计算EWC损失、 对手模型微调和推理并得
出结论等步骤。 本发明与现有技术相比具有避开
数据集推理的检测, 运用了弹性权重巩固方法,
使在修改决策边界的同时能控制模型测试精度
不会大幅度下降, 方法简便, 效果显著, 具有广泛
的应用前景, 可进一步发展到一个更现实的场
合: 黑盒设置和高分辨 率图像。
权利要求书2页 说明书7页 附图1页
CN 114972926 A
2022.08.30
CN 114972926 A
1.一种有 效避开对深度 学习模型的所有权检测方法, 其特征在于采用弹性权重巩固方
法, 找到合适的数据池来微调对手模型 的决策边界, 使数据集推理置信度下降且不降低模
型的精度, 使在修改决策边界的同时能控制模型测试精度, 该 方法具体包括下述 步骤:
步骤1: 训练 受害者模型
选择一个卷积层总数为28, 加宽因子为10的残差网络WRN ‑28‑10, 数据集选择的是
CIFAR10、 CIFAR 100和Imagenet12;
步骤2: 考虑攻击方法和模型架构
根据目标模型的不同权限级别以及攻击方法, 确定如下的对手模型架构:
1)数据可访问攻击
对手使用知识蒸馏来训练学生模型或 从头开始训练新模型, 其模型架构选择ResNet;
2)模型可访问攻击
对手可以通过零知识精馏来训练复制, 或者使用一个本地独立的数据集来微调目标模
型, 对于零知识蒸馏攻击者, 模型架构选择CIFAR10上的WRN ‑16‑1和CIFAR100上的WRN ‑16‑
2; 对于微调攻击者, 模型架构选择WRN ‑28‑10;
3)仅查询攻击
根据API返回的表单有仅标签攻击和仅日志攻击两种类型, 其模型架构选择CIFA R10上
的WRN‑16‑1和CIFAR 100上的WRN ‑16‑2;
步骤3: 训练对手模型
根据攻击的类型, 采用下述 不同的训练方法:
1)对于数据可访问攻击, 直接在原始训练数据集上训练两个模型, 进行100个迭代周
期;
2)对于零知识蒸馏攻击, 使用无数据的对抗性蒸馏方法, 并对该模型进行500个迭代周
期训练; 对于微调攻击, 使用未 标记的Ti nyimages, 在5个训练周期后接 近CIFAR;
3)对于仅查询攻击, 使用未 标记的Ti nyimages, 其训练周期为20个;
步骤4: 对手模型的数据集推理
1)考虑一个N类的任务, 对于训练数据集中的每个样本(x,y), DI首先生成它到每个类
的距离, 基于受害者对目标模型内部梯度的访问, DI执行两种生成方法: MinGD和Blind
Walk, 分别代表白盒和黑盒; 在 MinGD中, DI通过minδd(x,x+δ )s.t.f(x+δ )=m获得到目标类
m的最小距离δm; 在Blind Walk中, D I选定一个初始 方向δ, 并沿着 这个方向走k步直到f(x+k
δ )=m, δm=k δ表示y到m的距离, 其中度量( δ1, δ2,…, δN)为嵌入到目标模型中的特 征;
2)受害者从其私有训练数据集和公共数据集中随机选择相同数量的样本, 并计算其自
身模型的嵌入向量, 并标记为 ‑1或1, 用于训练一个二 值分类器;
3)验证阶段, 受害者从私人和公共数据集中选择相同数量的样本, 计算其对手模型的
特征向量, 并将其输入二值分类器, 计算置信度得分 μV和 μ; 受害者进行零假设H0: μ< μV, 得到
p值, 如果p值低于 显著水平α, 则拒绝H0, 并将对手模型 标记为被盗;
步骤5: 对手模型进行模型逆演生成与原 始训练样本相似的合成图像
1)通过输入与训练数据大小相同的初始随机噪声
和目标标签y, 从对手模型fA中恢复
的图像, 通过优化
来合成, 其中λ1、 λ2和λ3分别为分类损失
批处理规范化 正则化
和对抗性损失
的惩罚系数;权 利 要 求 书 1/2 页
2
CN 114972926 A
22)使用度量Q来定量分析合成图像与原始训练样本之间的差异, 所述度量Q由下述(a)
式计算:
式中,
为交叉熵损失;
为合成图像在预测向量中的最大置信值;
3)将合成图像按度量Q进行非降序排序, 选取前K个样本作为最相似的样本, 将其表示
为核心集DC, 其余为样本集DO;
步骤6: 计算EWC损失
1)选择概率最高的样本来近似先前任务的费雪信息矩阵F, 所述费雪信息矩阵F=
[Fij]n×n, 其Fij由下述(b)式计算:
式中, f(x|θ )为输入为x; 参数为θ的模型的输出; D为整个训练数据集;
为一阶偏导
数, 表示第i层参数的梯度变化 值的期望;
2)选择费雪信息矩阵F的对角线为每个参数的贡献, 所述费雪信息矩阵F的对角线Fi由
下述(c)式计算:
式中, θ*为先前任务的模型参数; θ为模型参数; Fii为费雪信息矩阵第i行第i列的值;
Ex~D为该数据分布下的数 学期望;
3)在损失函数
中添加一个正则化项来训练一个新的任务, 所述损失函数
由下
述(d)式计算:
其中,
为优化新任务的交叉熵损失; λ是一个控制先前任务重要性的参 数; Fi为先前任
务的费雪信息矩阵的对角线, 代 表了参数θ*在先前任务上的重要性, i表示每 个参数;
步骤7: 运用EWC方法和DO数据集对 对手模型进行微调
选择DC来近似费雪信息矩阵F, 运用EWC方法和DO数据集对对手模型进行微调, 更新所有
层的权重, 得到微调后的对手模型;
步骤8: 对微调后的对手模型进行数据集推理并得出结论对于微调后的对手模型采用
步骤4的数据集推理, 其推理结果为未被 盗, 则该模型有效, 否则该模 型无效, 不能避开数据
集推理的检测。权 利 要 求 书 2/2 页
3
CN 114972926 A
3
专利 一种有效避开对深度学习模型的所有权检测方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:31上传分享