(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211535321.2
(22)申请日 2022.12.02
(71)申请人 东南大学
地址 210096 江苏省南京市玄武区四牌楼 2
号
(72)发明人 汪鹏 刘嘉骏
(74)专利代理 机构 南京众联专利代理有限公司
32206
专利代理师 蒋昱
(51)Int.Cl.
G06F 16/36(2019.01)
G06N 3/08(2006.01)
G06N 5/02(2006.01)
(54)发明名称
一种基于迭代蒸馏的快速知识图谱嵌入模
型压缩方法
(57)摘要
一种基于迭代蒸馏的快速知识图谱嵌入模
型压缩方法, 1) 预训练 高维教师知 识图谱嵌入模
型; 2) 软标签权重自适应蒸馏; 3) 迭代蒸馏; 4) 低
维学生知识图谱嵌入模型预测。 本发 明可实现蒸
馏压缩知识图谱嵌入模型的优秀性能, 同时保持
了模型推理速度, 并减少50%的训练时间, 具有快
速训练的优势, 能满足现实应用中大规模知 识图
谱嵌入模型需要快速更新的需求。
权利要求书4页 说明书11页 附图3页
CN 115544277 A
2022.12.30
CN 115544277 A
1.一种基于迭代蒸馏的快速知识图谱嵌入 模型压缩方法, 具体步骤如下, 其特 征在于:
1) 预训练高维教师知识图谱嵌入 模型;
训练一个高嵌入维度教师模型, 为接下来指导低嵌入维度学生模型做准备;
2) 软标签权重自适应蒸馏;
提出一种软标签权重自适应蒸馏机制, 在教师模型指导学生模型训练的过程中, 根据
蒸馏损失的变化逐渐增加软标签损失的权重来解决硬标签损失的优化方向和软标签损失
的优化方向不 一致的问题;
3) 迭代蒸馏;
提出一种 迭代蒸馏的框架, 使知识图谱嵌入模型在迭代蒸馏过程中交替成为学生模型
和教师模 型, 加速训练过程, 使用单个教师进行蒸馏, 同时在蒸馏的过程中固定教师模型的
参数;
4) 低维学生知识图谱嵌入 模型预测。
2.根据权利要求1所述的一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法, 其特
征在于: 步骤1) 训练一个高嵌入维度教师模型的过程如下;
首先, 给定一系列的实体 e和关系R, 一个知识图谱 G表示为一系列三元组的集合, 使用
h,r,t表示三元组, 即头实体, 关系, 尾实体, 知识图谱嵌入模型将知识图谱中原有的头实
体、 关系和尾实体构成的三元组作为正三元组
, 同时随机替换
中的头实体和尾实体
作为负三元组
;
然后, 知识图谱嵌入模型将每个三元组嵌入为向量, 然后用一个打分函数 S计算每个三
元组向量表示的得分;
不同的知识图谱嵌入模型有不同的打分函数, 得到每个三元组的得分后, 损 失函数采
用二元交叉熵损失, 公式如下:
其中,
, 对于正三元组来说,
; 对于负三元组来说,
,
是
Softmax函数;
训练高维教师模型 结束后, 保存训练好的高维教师模型。
3.根据权利要求2所述的一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法, 其特
征在于: 步骤2) 具体步骤如下;
给定三元组 h,r,t, 首先将它同时输入给教师模型和学生模型, 分别经过教师模型和学
生模型进行编码, 然后定义教师模型的打分函数打分结果为
, 学生模型的打分函数
结果为
, 蒸馏过程中的硬标签损失为学生模型原 始的损失, 定义如下:
权 利 要 求 书 1/4 页
2
CN 115544277 A
2其中,
, 对于正三元组来说,
; 对于负三元组来说,
,
是
Softmax函数, 软标签损失采用 Huber损失计算教师模型和学生模型的分布差异, 定义如下:
最终, 蒸馏的总损失
硬标签损失和软 标签损失加权之和, 如下 所示:
其中,
是软标签的权 重, 用来平衡软 标签损失和硬标签损失。
4.根据权利要求3所述的一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法, 其特
征在于: 所述步骤2) 软标签权重自适应蒸馏机制的蒸馏的过程中只训练学生模型, 教师模
型的模型参数 是固定不动的。
5.根据权利要求3所述的一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法, 其特
征在于: 所述步骤2) 软标签权重自适应蒸馏机制的蒸馏的过程中动态地调整 软标签的权重
, 将完整的训练过程划分为两个阶段;
第一阶段, 硬标签损失占主导 地位, 软标签损失权 重被分配 较小的初始值并逐渐增 加;
第二阶段, 软 标签权重被固定;
定义完整的训练轮数为 M, 第m轮的软标签权重如下所示:
其中, 参数 k的值在训练过程中动态调整, 保证了
的值在范围
内, 软标签时间控制参数 p控制了软 标签权重调整的时间占比,
是初始软 标签权重。
6.根据权利要求3所述的一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法, 其特
征在于: 步骤3) 具体步骤如下;
定义在第 k次迭代中教师模型的嵌入维度为
, 教师模型的嵌入维度为
, 则每次迭代的压缩率
定义如下:
权 利 要 求 书 2/4 页
3
CN 115544277 A
3
专利 一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:40上传分享