(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210044925.0
(22)申请日 2022.01.14
(71)申请人 北京健康之家科技有限公司
地址 100102 北京市朝阳区利泽中二路2号
C座2层201
(72)发明人 侯盼盼 黄明星 王福钋 张航飞
徐华韫 曹富康 沈鹏
(74)专利代理 机构 北京中强智尚知识产权代理
有限公司 1 1448
专利代理师 刘敏
(51)Int.Cl.
G06K 9/62(2022.01)
G06F 40/289(2020.01)
G06F 40/295(2020.01)
G06F 40/30(2020.01)
(54)发明名称
自然语言处 理方法、 装置及计算机设备
(57)摘要
本申请公开了一种自然语 言处理方法、 装置
及计算机设备, 涉及人工智能技术领域, 可解决
针对不同的自然语 言处理任务, 需要量身定做相
应的模型, 同时进行各种 “魔改”, 导致任务处理
效率低、 成本高, 且通用领域模型表征能力有限,
在垂直下游任务中拟合能力较差的技术问题。 其
中方法包括: 根据预设训练任务对通用领域下的
BERT模型进行增量预训练, 得到自然语言处理模
型, 其中, 预设训练任务包括字词级别的第一训
练任务和任务级别的第二训练任务; 获取待进行
自然语言处理的文本数据, 并对文本数据进行预
处理, 其中, 预处理包括数据清洗处理、 停用词滤
除处理中的至少一种; 将预处理后的文本数据输
入自然语言处理模型中, 获取自然语言处理结
果。
权利要求书2页 说明书14页 附图5页
CN 114528919 A
2022.05.24
CN 114528919 A
1.一种自然语言处 理方法, 其特 征在于, 包括:
根据预设训练任务对通用 领域下的BERT模型进行增量预训练, 得到自然语言处理模
型, 其中, 所述预设训练任务包括字词级别的第一训练任务和任务级别的第二训练任务;
获取待进行自然语言处理的文本数据, 并对所述文本数据进行预处理, 其中, 所述预处
理包括数据清洗处 理、 停用词滤除处 理中的至少一种;
将预处理后的所述文本数据输入所述自然语言处 理模型中, 获取自然语言处 理结果。
2.根据权利要求1所述的方法, 其特征在于, 所述根据预设训练任务对通用领域下的
BERT模型进行增量预训练, 得到自然语言处 理模型, 包括:
获取所述第 一训练任务对应的第 一样本语料, 以及所述第 二训练任务对应的第 二样本
语料;
根据第一训练任务以及所述第一样本语料对所述BERT模型进行字词级别的第一预训
练;
根据第二训练任务以及所述第二样本语料对所述BERT模型进行任务级别的第二预训
练;
在判断所述BERT模型完成所述第一预训练和所述第二预训练后, 将所述BERT模型确定
为自然语言处 理模型。
3.根据权利要求2所述的方法, 其特征在于, 所述第一训练任务包括全词Mask任务、 语
句顺序预测任务, 所述根据第一训练任务以及所述第一样本语料对所述BERT模 型进行字词
级别的第一预训练, 包括:
对所述第一样本语料进行分词处理, 得到包含各个字符的文本序列, 在所述文本序列
中抽取与预设词典共现的字符或由至少两个字符构成的词语对所述BERT模型进行全词
Mask预训练; 以及,
按照预设字符标识对所述第一样本语料进行语句划分, 得到包含各个语句的语句序
列, 利用所述语句序列中连续的两个语句构建所述语句顺序预测任务的正例样本语句对,
将所述连续的两个语句进 行顺序交换后构建所述语句顺序预测任务的负例样本语句对, 利
用所述正例样本语句对和所述负例样本语句对 对所述BERT模型进行语句顺序预测预训练。
4.根据权利要求3所述的方法, 其特征在于, 在所述文本序列中抽取与 预设词典共现的
字符或由至少两个字符构成的词语对所述BERT模型进行全词Mask预训练之前, 还 包括:
基于TF‑IDF算法从标准行业文件中提取 所述预设训练任务对应的行业关键词;
根据各个所述行业关键词以及所述行业关键词在语料库中所属语种的语种内关联关
系, 获取各个所述行业关键词的关联词语, 所述关联词语包括同义词、 近义词、 音似词和形
似词中的至少一种;
基于所述行业关键词和所述关联词语构建预设词典。
5.根据权利要求3所述的方法, 其特征在于, 所述利用所述正例样本语句对和所述负例
样本语句对 对所述BERT模型进行语句顺序预测预训练, 包括:
将所述正例样本语句对和所述负例样本语句对分别输入所述BERT模型, 获取所述正例
样本语句对中两个语句对应的第一语句向量和 第二语句向量, 以及所述负例样本语句对中
两个语句对应的第三语句向量和第四语句向量;
计算所述第 一语句向量和所述第 二语句向量的第 一向量特征距离, 以及所述第 三语句权 利 要 求 书 1/2 页
2
CN 114528919 A
2向量和所述第四语句向量的第二向量特征距离, 根据所述第一向量特征距离和所述第二向
量特征距离更新所述BERT模型的模型参数, 以使所述第一向量特征距离小于第一预设阈
值, 且所述第二向量特征距离大于第二预设阈值, 其中, 所述第二预设阈值大于所述第一预
设阈值。
6.根据权利要求2所述的方法, 其特征在于, 所述第 二训练任务包括对话场景对象的分
类任务和实体识别任务;
所述根据第二训练任务以及所述第二样本语料对所述BERT模型进行任务级别的第二
预训练, 包括:
为所述第二样本语料配置任务标签, 所述任务标签包括对象标签和实体标签;
以所述第二样本语料作为所述BERT模型的输入特征, 以及以所述对象标签或所述实体
标签为训练标签训练所述BERT模型, 获取任务训练结果;
根据所述任务标签和所述任务训练结果计算所述BERT模型的损失函数;
若所述损失函数达到模型收敛要求, 则判定所述BERT模型完成所述分类任务的第二预
训练;
若判断所述损失函数未达到模型收敛要求, 则更新所述BERT模型的模型参数, 并对更
新后的BERT模型进行迭代训练, 直至所述损失函数符合模型收敛要求。
7.根据权利要求1所述的方法, 其特征在于, 在所述将预处理后的所述文本数据输入所
述自然语言处 理模型中, 获取自然语言处 理结果之前, 还 包括:
确定所述文本数据对应的目标下游任务, 利用与 所述目标下游任务匹配的适应数据对
所述自然语言处 理模型进行微调处 理;
所述将预处理后的所述文本数据输入所述自然语言处理模型中, 获取自然语言处理结
果, 包括:
将预处理后的所述文本数据输入微调处理后的自然语言处理模型中, 获取所述目标下
游任务对应的自然语言处 理结果。
8.一种自然语言处 理装置, 其特 征在于, 包括:
训练模块, 用于根据预设训练任务对通用领域下的BERT模型进行增量预训练, 得到自
然语言处理模型, 其中, 所述预设训练任务包括字词级别的第一训练任务和任务级别的第
二训练任务;
处理模块, 用于获取待进行自然语言处理 的文本数据, 并对所述文本数据进行预处理,
其中, 所述预处 理包括数据清洗处 理、 停用词滤除处 理中的至少一种;
输入模块, 用于将预处理后的所述文本数据输入所述自然语言处理模型中, 获取自然
语言处理结果。
9.一种存储介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理器执行时实现
权利要求1至7中任一项所述的自然语言处 理方法。
10.一种计算机设备, 包括存储介质、 处理器及存储在存储介质上并可在处理器上运行
的计算机程序, 其特征在于, 所述处理器执行所述程序时实现权利要求1至7中任一项所述
的自然语言处 理方法。权 利 要 求 书 2/2 页
3
CN 114528919 A
3
专利 自然语言处理方法、装置及计算机设备
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:55上传分享