专利 一种降低语义识别计算量的方法、系统及存储介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210160086.9 (22)申请日 2022.02.22 (65)同一申请的已公布的文献号申请公布号 CN 114238644 A (43)申请公布日 2022.03.25 (73)专利权人北京澜舟科技有限公司地址 100000 北京市海淀区海淀大街3号B 座11层1101-3室 (72)发明人王宇龙　张倬胜　华菁云　周明　 (74)专利代理机构深圳市智享知识产权代理有限公司 4 4361 专利代理师王琴 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/289(2020.01)G06F 40/295(2020.01) G06F 40/30(2020.01) 审查员王婷婷 (54)发明名称一种降低语义识别计算量的方法、系统及存储介质 (57)摘要本发明涉及自然语言处理领域，特别涉及一种降低语义识别计算量的方法、系统及存储介质。本发明的降低语义识别计算量的方法包括如下步骤：获取预训练模型；对预训练模型增加语言学训练目标成为最终训练模型；将待识别文本输入最终训练模型；输出待识别文本语义。通过增加语言学训练目标的设计，使得无需改变模型的结构就能提升训练的精确性和模型的鲁棒性，同时还降低了模型的复杂程度，降低了模型的计算量，解决了现有技术模型的计算量过大的问题。权利要求书1页说明书8页附图3页 CN 114238644 B 2022.06.07 CN 114238644 B 1.一种降低语义识别计算量的方法，其特征在于：包括以下步骤：将预设训练句子样本拆分为子词序列并对子词序列进行随机覆盖以生成拓展句子样本，输入拓展句子样本至预设语言模型中，得到编码后的上下文表示，并基于预设第一训练目标训练语言模型以获取预训练模型；所述第一训练目标为解析被覆盖的子词序列；将训练句子样本标注词性标签和实体标签，并给预训练模型增加相应的语言学训练目标，即增加第二训练目标成为最终训练模型，也即第一训练目标与第二训练目标结合对语言模型进行增强训练获得最终训练模型，所述语言学训练目标为根据上下文表示，预测相应的词性标签概率和实体标签概率；将待识别文本输入最终训练模型；输出待识别文本语义。 2.如权利要求1所述的降低语义识别计算量的方法，其特征在于：通过自然语言处理工具对训练句子样本W进行词性标签和实体标签的标注。 3.如权利要求1所述的降低语义识别计算量的方法，其特征在于：所述第一训练目标设置为；所述第二训练目标设置为；，所述最终训练模型的训练目标设置为，其中为预训练模型的损失函数，与为词性标签和实体标签的预测损失函数，为第k个输入的句子，为拓展句子样本，为第i个词性标签，为第i个实体标签，和为预测其对应的语言学标签的概率。 4.如权利要求3所述的降低语义识别计算量的方法，其特征在于：通过损失函数作为训练目标，损失函数设置为交叉熵损失函数。 5.如权利要求1所述的降低语义识别计算量的方法，其特征在于：切分子词序列时记录每个词所切分后的子词元素及与其对应的词性标签和实体标签。 6.一种降低语义识别计算量的系统，其特征在于：包括：训练模块：将预设训练句子样本拆分为子词序列并对子词序列进行随机覆盖以生成拓展句子样本，输入拓展句子样本至预设语言模型中，得到编码后的上下文表示，并基于预设第一训练目标训练语言模型以获取预训练模型；所述第一训练目标为解析被覆盖的子词序列；将训练句子样本标注词性标签和实体标签，并给预训练模型增加相应的语言学训练目标,即增加第二训练目标成为最终训练模型；也即第一训练目标与第二训练目标结合对语言模型进行增强训练获得最终训练模型，所述语言学训练目标为根据上下文表示，预测相应的词性标签概率和实体标签概率；输入模块，用于将待识别文本输入最终训练模型；输出模块，用于输出待识别文本语义。 7.一种存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1 ‑5任一项所述的方法。权　利　要　求　书 1/1 页 2 CN 114238644 B 2一种降低语义识别计算量的方法、系统及存储介质技术领域 [0001]本发明涉及自然语言处理领域，特别涉及一种降低语义识别计算量的方法、系统及存储介质。背景技术 [0002]近年来，预训练模型成为了自然语言处理（NLP）领域的新范式。预训练模型是一种迁移学习的应用，通过自监督学习从大规模数据中训练得到与具体任务无关的预训练模型，利用几乎无限的文本，学习输入句子的每一个词语单元的上下文相关的表示，从而隐式地学习通用的语法语义知识，并可通过微调的方式用在任何的下游任务上。 [0003]语言建模的核心是从大规模数据中自动捕获知识。知识分为显性知识和隐性知识。显性知识是能用文字和数字表达出来的，容易以硬数据的形式交流和共享，并且经编辑整理的程序或者普遍原则。隐性知识是高度个性而且难于格式化的知识，包括主观的理解、直觉和预感。传统NLP研究常常采用语言标注信息作为显性知识来增强语言表示，进而更好地在模型隐层中挖掘隐性知识，如向词嵌入表示（Word Embedding）中融合词性标注（POS）和命名实体（NER）的标注信息。在预训练模型时代，已有研究表明预训练模型依然处于欠拟合状态，有效地引入人类先验知识或常识有助于提升模型的语言理解和推理能力。 [0004]现有的一些方案通过语言学相关的任务来引导模型学习人类语言结构，包括语言表示层面和注意力架构层面。具体而言，前者将标注的词性标签、实体标签或语言角色标签等语言学信息通过词嵌入的方式融合到词语表示中，作为语言学标签的增强；后者通过句法结构解析，得到词和词之间的关系，构建关系矩阵，融合到注意力机制的权重里面。这两类方法均需要对模型架构进行修改，导致模型的计算量过大的问题。发明内容 [0005]为解决现有模型的计算量过大的问题，本发明提供了一种降低语义识别计算量的方法、系统及存储介质。 [0006]本发明解决技术问题的方案是提供一种降低语义识别计算量的方法，包括以下步骤： [0007]将预设训练句子样本拆分为子词序列并对子词序列进行随机覆盖以生成拓展句子样本，输入拓展句子样本至预设语言模型中，得到编码后的上下文表示，并基于预设第一训练目标训练语言模型以获取预训练模型，所述第一训练目标为解析被覆盖的子词序列； [0008]将训练句子样本标注词性标签和实体标签，并给预训练模型增加相应的语言学训练目标，即增加第二训练目标成为最终训练模型，也即第一训练目标与第二训练目标结合对语言模型进行增强训练获得最终训练模型，所述语言学训练目标为根据上下文表示，预测相应的词性标签概率和实体标签概率； [0009]将待识别文本输入最终训练模型； [0010]输出待识别文本语义。说　明　书 1/8 页 3 CN 114238644 B 3

专利 一种降低语义识别计算量的方法、系统及存储介质

专利一种降低语义识别计算量的方法、系统及存储介质