(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202211140194.6 (22)申请日 2022.09.20 (65)同一申请的已公布的文献号 申请公布号 CN 115223049 A (43)申请公布日 2022.10.21 (73)专利权人 山东大学 地址 250000 山东省济南市山大南路27号 专利权人 国网浙江省电力有限公司温州供 电公司  华北电力大 学 (保定)   智洋创新科技股份有限公司   南瑞集团有限公司   山东省计算中心 (国家超 级计算 济南中心) (72)发明人 聂礼强 甘甜 关惟俐 郑晓云  翟永杰 赵砚青 罗旺 陈雨涛  高赞  (74)专利代理 机构 山东知圣律师事务所 37262 专利代理师 丁奎英(51)Int.Cl. G06V 20/10(2022.01) G06V 10/74(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06N 3/08(2006.01) (56)对比文件 CN 114049513 A,202 2.02.15 CN 110855608 A,2020.02.28 CN 113743514 A,2021.12.0 3 CN 115063663 A,2022.09.16 CN 113643340 A,2021.1 1.12 CN 113159173 A,2021.07.23 CN 114241282 A,202 2.03.25 CN 114239861 A,202 2.03.25 CN 114095447 A,202 2.02.25 US 2022076136 A1,202 2.03.10 WO 2022051855 A1,202 2.03.17 WO 2021243473 A1,2021.12.09 (续) 审查员 李晓 (54)发明名称 面向电力场景边缘计算大模型压缩的知识 蒸馏与量 化方法 (57)摘要 本发明属于压缩技术领域, 具体提供了一种 面向电力场景边缘计算大模型压缩的知识蒸馏 与量化方法。 其包括以下步骤:电力场景任务抽 象; 双层知识蒸馏网络单元构建; 教师模型修饰 处理; 主从教师监督框架: 基于教师 ‑学生蒸馏网 络, 使用多个数据集训练不同的教师模型, 包括 与目标任务类似的场景数据集和实际落地场景 的数据集, 将这些数据集进行划分, 训练多个教 师模型, 按照数据集与落地场景相似度分配指导 权重, 分为主教师模型和若干个从教师模型, 从 而对学生模 型进行不同层面的知识引导, 提高学 生模型在复杂场景下的泛化能力; 学生模型压缩感知训练。 [转续页] 权利要求书4页 说明书10页 附图4页 CN 115223049 B 2022.12.13 CN 115223049 B (56)对比文件 US 2021383238 A1,2021.12.09 US 2022036194 A1,202 2.02.03 WO 2022051856 A1,202 2.03.17 葛仕明等.基 于深度特 征蒸馏的人脸识别.《北京交通大 学学报》 .2017,(第0 6期), Yuzhang Shang 等.L ipschitz Continuity Guided Kn owledge Disti llation. 《2021 IE EE/ CVF Internati onal Conference o n Computer Vision (ICCV)》 .2021,2/2 页 2[接上页] CN 115223049 B1.一种面向电力场景边缘计算大模型压缩的知识蒸馏与量化方法,  其特征在于: 包括 以下步骤: S1: 电力场景任务抽象: 对电力输电线路巡检中需识别的主体缺陷和外破隐患进行任 务划分和抽象, 分割成计算机 视觉可执行的具体子任务; S2: 双层知识蒸馏网络单元构建: 针对知识蒸馏过程, 设计教师—学生网络用于模型训 练, 教师模 型采用基于Transformer的视觉大模 型, 中等目标模 型则为参数量相较少的待进 一步压缩的模 型, 教师模型将在logits层面输出soft ‑target指导学生模型的训练, 同时在 中间层输出特征图信息用作指导学生模 型的优化, 构建logt is层面与中间层相结合的双层 知识蒸馏 架构; S3: 教师模型修饰处理: 为删减教师模型中的冗余信息, 对教师高精度大模型进行非结 构化剪枝, 使其在知识进行迁移 时可以提供精炼的有利知识, 便于学习能力弱的学生模型 进行学习, 为保证剪枝后精度的可靠性, 进 行一定轮次的再训练, 最后得到可用于指导学生 进行学习的教师模型; S4: 主从教师监督框架: 基于教师 ‑学生蒸馏网络, 使用多个数据集训练不同的教师模 型, 包括与目标任务类似的场景数据集和实际落地场景的数据集, 将这些数据集进 行划分, 训练多个教师模型, 按照数据集与落地场景相似度分配指导权重, 分为主教师模型和若干 个从教师模型, 从而对学生模型进行不同层面的知识引导, 提高学生模型在 复杂场景下 的 泛化能力; S5: 学生模型压缩感知训练: 对学生模型进行迭代式剪枝和训练感知量化, 通过子模型 采样策略, 筛选剪枝过程中效果最优的子模型, 在模型迭代过程不断更新量化的scale参 数, 监控模型量化过程中的精度损失, 进一步挖掘学生模型的可压缩空间, 从而获得高精度 和高效率的边 缘部署模型; 所述步骤S1电力场景任务抽象的过程还 包括以下步骤: S11: 收集现有公开数据集, 筛 选与电力输电线路场景或野外图像数据类似的数据集; S12: 将巡检过程中需要识别的主体缺陷和外破隐患根据收集到的数据集进行任务划 分, 获得若干种深度学习中可独立完成的任务; 所述步骤S2双 层知识蒸馏网络单 元构建的过程还 包括: S21: 使用基于visiontransformer的视觉模型构建教师—学生知识蒸馏网络, 教师和 学生网络都采用transformer编码器, 根据具体的应用要求进行不同尺 寸的模型选择, 对于 输入的图片, 进行n ×n等面积划分, 使用n=3, 获得图片块[P0,P1, …,P8], 将该图片块按照 位置序列输入到线性投射层, 使用图像卷积获得图片的嵌入向量; S22: 图片块嵌入信息不足以用于transformer进行训练, 附加图片块的位置向量才能 继续学习, 同时为了在编码器输出时综合每个图片块的特征提取结果, 在输入中加入一个 随机初始化的待学习标记块, 与位置嵌入信息进行相加; S23: 教师模型和学生模型由多个编码单元块组成, 每个单元块是由Norm、 Multi ‑Head‑ Attention、 Norm、 MLP层组成, 选定教师模型的第t 个单元块, t=1,2,3, …, 和学生模型的第s 个单元块, s=1,2,3, …, 此处都选择编码器倒数第二个单元块, 将教师模 型和学生模型对应 单元块输出的特征序列进 行平均池化, 获得特征图, 对特征图进 行L2归一化处理, 再进 行平权 利 要 求 书 1/4 页 2 CN 115223049 B 3

PDF文档 专利 面向电力场景边缘计算大模型压缩的知识蒸馏与量化方法

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 面向电力场景边缘计算大模型压缩的知识蒸馏与量化方法 第 1 页 专利 面向电力场景边缘计算大模型压缩的知识蒸馏与量化方法 第 2 页 专利 面向电力场景边缘计算大模型压缩的知识蒸馏与量化方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:58:53上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。