standard library
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210114833.5 (22)申请日 2022.01.30 (71)申请人 阿里云计算有限公司 地址 310024 浙江省杭州市西湖区转塘科 技经济区块12号 (72)发明人 汪诚愚 张涛林 邱明辉 黄俊 (74)专利代理 机构 北京展翼知识产权代理事务 所(特殊普通 合伙) 11452 专利代理师 张阳 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/279(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 预训练语言模型的知识注入方法和相应的 交互系统 (57)摘要 公开了一种预训练语言模型的知识注入方 法和相应的交互系统。 所述方法包括: 从知识图 谱中召回与训练样本中包含的长尾实体相关的 三元组信息; 基于所述三元 组信息构造用于替换 所述长尾实体的知识表示 嵌入; 使用长尾实体被 替换为所述知识表示嵌入的训练样本用于所述 预训练语言模型PLM的预训练; 以及在所述预训 练过程中, 使用预测出所述长尾实体不引入损失 的第一损失函数对所述PLM的神经网络进行调 整。 本发明通过将知识图谱召回的三元组信息的 伪标记嵌入注入预训练模型并要求模型预测被 替换原始长尾实体, 能够在不使用额外知识编码 器的情况下在预训练阶段完成知识注入, 从而 方 便后续微调和推理阶段的处 理。 权利要求书2页 说明书13页 附图4页 CN 114936287 A 2022.08.23 CN 114936287 A 1.一种预训练语言模型的知识 注入方法, 包括: 从知识图谱中召回与训练样本中包 含的长尾实体相关的三元组信息; 基于所述 三元组信息构造用于替换 所述长尾实体的知识 表示嵌入; 使用长尾实体被替换为所述知识表示嵌入的训练样本用于所述预训练语言模型的预 训练; 以及 在所述预训练过程中, 使用预测出所述长尾实体不引入损失的第 一损失函数对所述预 训练语言模型的神经网络进行调整。 2.如权利要求1所述的方法, 还 包括: 判定作为预训练数据集的语料库中各句子中是否包含长尾实体, 其中, 根据第一因素 进行所述判定, 并且所述第一因素与实体在语料库中出现的频率相关。 3.如权利要求2所述的方法, 还包括根据如下至少一个因素判定作为预训练数据集的 语料库中各句子中是否包 含长尾实体: 第二因素, 所述第二因素与实体在句子中的语义重要性相关; 以及 第三因素, 所述第三因素与实体在所述知识图谱中的连接度相关。 4.如权利要求1所述的方法, 还 包括: 从所述知识图谱中召回所述 三元组信息的相似三元组信息和无效三元组信息; 针对所述三元组信息、 所述相似三元组信息和所述无效三元组信息, 在预训练任务中 进行对比学习。 5.如权利要求 4所述的方法, 还 包括: 根据所述知识图谱构造关系树, 并且 从所述知识图谱中召回所述 三元组信息相似三元组信息和无效三元组信息包括: 根据在所述关系树上关系的远近, 召回所述相似三元组信 息以及对比学习难度不同的 多个无效三元组信息 。 6.如权利要求1所述的方法, 其中, 基于所述三元组信 息构造用于替换所述长尾实体的 知识表示嵌入 包括: 在所述长尾实体是所述三元组信 息的头实体时, 所述知识表示嵌入包括尾实体嵌入减 去关系词嵌入; 在所述长尾实体是所述三元组信 息的尾实体时, 所述知识表示嵌入包括头实体嵌入加 上关系词嵌入。 7.如权利要求1所述的方法, 其中, 所述知识 表示嵌入 还包括: 串联的所述长尾实体的解释文本, 所述解释文本是从作为预训练数据集的语料库中选 取的。 8.如权利要求1所述的方法, 还 包括: 对所述训练样本中的非 实体进行掩码处 理; 将所述经掩码处 理的训练样本 输入所述预训练语言模型PLM; 获得所述PLM针对被掩码字输出的第二损失值, 并据此调整所述PLM中神经网络模型的 参数, 其中, 将第二损失值 函数规定为独热向量与模型 预测概率分布之间的交叉熵。 9.如权利要求1所述的方法, 还 包括: 在预训练之前, 对作为预训练数据集的语料库和知识图谱进行分析以标记语料库中各权 利 要 求 书 1/2 页 2 CN 114936287 A 2句子包含的长尾实体以及从知识图谱召回的与每一长尾实体相关的一个特定三元组信息 。 10.一种基于知识 注入的交 互系统, 包括: 用户输入接收单 元, 用于获取用户输入的特定领域相关问询; 问题匹配单元, 包括如权利要求1 ‑9中任一项所述的方法使用特定领域语料库和特定 领域知识图谱获取的特定领域知识注入的预训练模型, 所述模型识别所述特定领域相关问 询中的相关长尾实体并据此进行生成反馈; 反馈提供 单元, 用于将生成的反馈提供 给所述用户。 11.一种计算设备, 包括: 处理器; 以及 存储器, 其上存储有可执行代码, 当所述可执行代码被所述处理器执行时, 使所述处理 器执行如权利要求1 ‑9中任一项所述的方法。 12.一种非暂时性机器可读存储介质, 其上存储有可执行代码, 当所述可执行代码被电 子设备的处 理器执行时, 使所述处 理器执行如权利要求1 ‑9中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114936287 A 3
专利 预训练语言模型的知识注入方法和相应的交互系统
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:39
上传分享
举报
下载
原文档
(1.1 MB)
分享
友情链接
SC-T 4001-2021 渔具基本术语.pdf
应急预案管理制度.pdf
GB-T 39720-2020 信息安全技术 移动智能终端安全技术要求及测试评价方法.pdf
DB31-T 862-2021 “一网通办”政务服务中心建设和运行规范 上海市.pdf
T-CEC 5080—2022 户用光伏发电系统安装调试与验收规范.pdf
GB-T 39316.3-2020 军民通用资源 元数据 第3部分:器材类 航材.pdf
GBT 50064-2014 交流电气装置的过电压保护和绝缘配合设计规范.pdf
GB-T 20794-2021 海洋及相关产业分类.pdf
GB-T 9074.32-2017 螺栓或螺钉和锥形弹性垫圈组合件.pdf
GA-T 841-2021 基于离子迁移谱技术的痕量毒品-炸药探测仪通用技术要求.pdf
DB4403-T 422.1—2024 诚信计量管理规范 第1部分:通则 深圳市.pdf
JR-T 0071.2—2020 金融行业网络安全等级保护实施指引 第2部分:基本要求.pdf
等保2.0 _ 公安部《网络安全等级保护测评实施》PPT分享.pdf
GB 55031-2022 民用建筑通用规范.pdf
DB52-T 1540.2-2021 政务数据 第2部分:元数据管理规范 贵州省.pdf
GB-T 26071-2018 太阳能电池用硅单晶片.pdf
ISO 19160-4 2023 Addressing — Part 4 International postal address components and template.pdf
GB-T 8020-2015 汽油中铅含量的测定 原子吸收光谱法.pdf
DB31-T 945.4-2020 节能服务业服务规范 第4部分:公共建筑能源审计 上海市.pdf
GB-T 41780.1-2022 物联网 边缘计算 第1部分:通用要求.pdf
1
/
20
评价文档
赞助2.5元 点击下载(1.1 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。