专利 自然语言处理方法、装置及计算机设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210044925.0 (22)申请日 2022.01.14 (71)申请人北京健康之家科技有限公司地址 100102 北京市朝阳区利泽中二路2号 C座2层201 (72)发明人侯盼盼　黄明星　王福钋　张航飞　徐华韫　曹富康　沈鹏　 (74)专利代理机构北京中强智尚知识产权代理有限公司 1 1448 专利代理师刘敏 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/289(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) (54)发明名称自然语言处理方法、装置及计算机设备 (57)摘要本申请公开了一种自然语言处理方法、装置及计算机设备，涉及人工智能技术领域，可解决针对不同的自然语言处理任务，需要量身定做相应的模型，同时进行各种 “魔改”，导致任务处理效率低、成本高，且通用领域模型表征能力有限，在垂直下游任务中拟合能力较差的技术问题。其中方法包括：根据预设训练任务对通用领域下的 BERT模型进行增量预训练，得到自然语言处理模型，其中，预设训练任务包括字词级别的第一训练任务和任务级别的第二训练任务；获取待进行自然语言处理的文本数据，并对文本数据进行预处理，其中，预处理包括数据清洗处理、停用词滤除处理中的至少一种；将预处理后的文本数据输入自然语言处理模型中，获取自然语言处理结果。权利要求书2页说明书14页附图5页 CN 114528919 A 2022.05.24 CN 114528919 A 1.一种自然语言处理方法，其特征在于，包括：根据预设训练任务对通用领域下的BERT模型进行增量预训练，得到自然语言处理模型，其中，所述预设训练任务包括字词级别的第一训练任务和任务级别的第二训练任务；获取待进行自然语言处理的文本数据，并对所述文本数据进行预处理，其中，所述预处理包括数据清洗处理、停用词滤除处理中的至少一种；将预处理后的所述文本数据输入所述自然语言处理模型中，获取自然语言处理结果。 2.根据权利要求1所述的方法，其特征在于，所述根据预设训练任务对通用领域下的 BERT模型进行增量预训练，得到自然语言处理模型，包括：获取所述第一训练任务对应的第一样本语料，以及所述第二训练任务对应的第二样本语料；根据第一训练任务以及所述第一样本语料对所述BERT模型进行字词级别的第一预训练；根据第二训练任务以及所述第二样本语料对所述BERT模型进行任务级别的第二预训练；在判断所述BERT模型完成所述第一预训练和所述第二预训练后，将所述BERT模型确定为自然语言处理模型。 3.根据权利要求2所述的方法，其特征在于，所述第一训练任务包括全词Mask任务、语句顺序预测任务，所述根据第一训练任务以及所述第一样本语料对所述BERT模型进行字词级别的第一预训练，包括：对所述第一样本语料进行分词处理，得到包含各个字符的文本序列，在所述文本序列中抽取与预设词典共现的字符或由至少两个字符构成的词语对所述BERT模型进行全词 Mask预训练；以及，按照预设字符标识对所述第一样本语料进行语句划分，得到包含各个语句的语句序列，利用所述语句序列中连续的两个语句构建所述语句顺序预测任务的正例样本语句对，将所述连续的两个语句进行顺序交换后构建所述语句顺序预测任务的负例样本语句对，利用所述正例样本语句对和所述负例样本语句对对所述BERT模型进行语句顺序预测预训练。 4.根据权利要求3所述的方法，其特征在于，在所述文本序列中抽取与预设词典共现的字符或由至少两个字符构成的词语对所述BERT模型进行全词Mask预训练之前，还包括：基于TF‑IDF算法从标准行业文件中提取所述预设训练任务对应的行业关键词；根据各个所述行业关键词以及所述行业关键词在语料库中所属语种的语种内关联关系，获取各个所述行业关键词的关联词语，所述关联词语包括同义词、近义词、音似词和形似词中的至少一种；基于所述行业关键词和所述关联词语构建预设词典。 5.根据权利要求3所述的方法，其特征在于，所述利用所述正例样本语句对和所述负例样本语句对对所述BERT模型进行语句顺序预测预训练，包括：将所述正例样本语句对和所述负例样本语句对分别输入所述BERT模型，获取所述正例样本语句对中两个语句对应的第一语句向量和第二语句向量，以及所述负例样本语句对中两个语句对应的第三语句向量和第四语句向量；计算所述第一语句向量和所述第二语句向量的第一向量特征距离，以及所述第三语句权　利　要　求　书 1/2 页 2 CN 114528919 A 2向量和所述第四语句向量的第二向量特征距离，根据所述第一向量特征距离和所述第二向量特征距离更新所述BERT模型的模型参数，以使所述第一向量特征距离小于第一预设阈值，且所述第二向量特征距离大于第二预设阈值，其中，所述第二预设阈值大于所述第一预设阈值。 6.根据权利要求2所述的方法，其特征在于，所述第二训练任务包括对话场景对象的分类任务和实体识别任务；所述根据第二训练任务以及所述第二样本语料对所述BERT模型进行任务级别的第二预训练，包括：为所述第二样本语料配置任务标签，所述任务标签包括对象标签和实体标签；以所述第二样本语料作为所述BERT模型的输入特征，以及以所述对象标签或所述实体标签为训练标签训练所述BERT模型，获取任务训练结果；根据所述任务标签和所述任务训练结果计算所述BERT模型的损失函数；若所述损失函数达到模型收敛要求，则判定所述BERT模型完成所述分类任务的第二预训练；若判断所述损失函数未达到模型收敛要求，则更新所述BERT模型的模型参数，并对更新后的BERT模型进行迭代训练，直至所述损失函数符合模型收敛要求。 7.根据权利要求1所述的方法，其特征在于，在所述将预处理后的所述文本数据输入所述自然语言处理模型中，获取自然语言处理结果之前，还包括：确定所述文本数据对应的目标下游任务，利用与所述目标下游任务匹配的适应数据对所述自然语言处理模型进行微调处理；所述将预处理后的所述文本数据输入所述自然语言处理模型中，获取自然语言处理结果，包括：将预处理后的所述文本数据输入微调处理后的自然语言处理模型中，获取所述目标下游任务对应的自然语言处理结果。 8.一种自然语言处理装置，其特征在于，包括：训练模块，用于根据预设训练任务对通用领域下的BERT模型进行增量预训练，得到自然语言处理模型，其中，所述预设训练任务包括字词级别的第一训练任务和任务级别的第二训练任务；处理模块，用于获取待进行自然语言处理的文本数据，并对所述文本数据进行预处理，其中，所述预处理包括数据清洗处理、停用词滤除处理中的至少一种；输入模块，用于将预处理后的所述文本数据输入所述自然语言处理模型中，获取自然语言处理结果。 9.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7中任一项所述的自然语言处理方法。 10.一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7中任一项所述的自然语言处理方法。权　利　要　求　书 2/2 页 3 CN 114528919 A 3

专利 自然语言处理方法、装置及计算机设备

专利自然语言处理方法、装置及计算机设备