专利 语义截断检测方法、装置、设备和计算机可读存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210057008.6 (22)申请日 2022.01.18 (71)申请人平安科技（深圳）有限公司地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人赵仕豪　马骏　王少军　 (74)专利代理机构广州嘉权专利商标事务所有限公司 4 4205 代理人廖慧贤 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/284(2020.01) G06F 40/211(2020.01) G06K 9/62(2022.01) (54)发明名称语义截断检测方法、装置、设备和计算机可读存储介质 (57)摘要本发明提供了一种语义截断检测方法、装置、设备和计算机可读存储介质，语义截断检测方法包括获取待检测文本数据；获取第一语料数据并得到多个语义截断类型；判断待检测文本数据的语义截断类型；根据语义截断类型，通过预设规则和/或BERT分类模型对待检测文本数据进行检测，得到检测结果； BERT分类模型通过以下步骤得到：获取业务语料数据；对每条业务文本数据选取一个随机位置进行切分，构造得到正例句子对；选取任意两条业务文本数据，构造得到负例句子对；根据正例句子对和负例句子对构建训练集，将训练集输入至初始BERT模型中进行训练，得到BERT分类模型；能够更加准确地识别出用户的意图，减少因识别失败而增加的交互次数，提高用户的良好体验感。权利要求书3页说明书13页附图5页 CN 114372476 A 2022.04.19 CN 114372476 A 1.一种语义截断检测方法，其特征在于，包括：获取待检测文本数据；获取第一语料数据，根据所述第一语料数据得到多个语义截断类型，其中，所述第一语料数据为出现语义截断的历史文本数据；判断所述待检测文本数据所属的语义截断类型；根据所述语义截断类型，通过预设规则和/或预先训练好的BERT分类模型对所述待检测文本数据进行检测，得到所述待检测文本数据是否出现语义截断的检测结果；其中，所述BERT分类模型通过以下训练步骤得到：获取业务语料数据，其中，所述业务语料数据包括多条业务文本数据；对每条所述业务文本数据选取一个随机位置进行切分，构造得到正例句子对，其中，所述正例句子对为存在截断关系的上下句；选取任意两条所述业务文本数据，构造得到负例句子对，其中，所述负例句子对为非截断关系的上下句；根据所述正例句子对和所述负例句子对构建训练集，将所述训练集输入至初始BERT模型中进行训练，得到所述BERT分类模型。 2.根据权利要求1所述的语义截断检测方法，其特征在于，所述多个语义截断类型包括第一截断类型、第二截断类型和第三截断类型，所述预设规则包括第一匹配字典、第二匹配字典和第三匹配字典，所述根据所述语义截断类型，通过预设规则和/或预先训练好的BERT 分类模型对所述待检测文本数据进行检测，包括以下至少之一：若所述待检测文本数据属于第一截断类型，根据所述第一匹配字典对所述待检测文本数据进行匹配，其中，所述第一截断类型表示出现语气词；若所述待检测文本数据属于第二截断类型，根据所述第二匹配字典和所述BERT分类模型对所述待检测文本数据进行检测，其中，所述第二截断类型表示出现停顿或中断词汇；若所述待检测文本数据属于第三截断类型，根据所述第三匹配字典和所述BERT分类模型对所述待检测文本数据进行检测，其中，所述第三截断类型表示出现口语习惯词汇。 3.根据权利要求2所述的语义截断检测方法，其特征在于，所述第一匹配字典预存有多个语气词；所述得到所述待检测文本数据是否出现语义截断的检测结果，包括：若所述待检测文本数据匹配到所述第一匹配字典中的语气词，则得到所述待检测文本数据出现语义截断的检测结果。 4.根据权利要求2所述的语义截断检测方法，其特征在于，所述第二匹配字典预存有多个停顿词汇和中断词汇；所述根据所述第二匹配字典和所述BERT分类模型对所述待检测文本数据进行检测，包括：根据所述第二匹配字典对所述待检测文本数据的开头及结尾进行匹配；若所述待检测文本数据不能匹配到所述第二匹配字典中的词汇，通过所述BERT分类模型进行检测并输出概率预测得分，其中，所述概率预测得分包括截断预测得分和非截断预测得分；所述得到所述待检测文本数据是否出现语义截断的检测结果，包括：若所述截断预测得分高于或等于预设截断阈值，则得到所述待检测文本数据出现语义截断的检测结果。权　利　要　求　书 1/3 页 2 CN 114372476 A 25.根据权利要求2所述的语义截断检测方法，其特征在于，所述第三匹配字典预存有多个口语习惯词汇；所述根据所述第三匹配字典和所述BERT分类模型对所述待检测文本数据进行检测，包括：根据所述第三匹配字典对所述待检测文本数据的结尾进行匹配；若所述待检测文本数据不能匹配到所述第三匹配字典中的词汇，通过所述BERT分类模型进行检测并输出概率预测得分，其中，所述概率预测得分包括截断预测得分和非截断预测得分；所述得到所述待检测文本数据是否出现语义截断的检测结果，包括：若所述截断预测得分高于或等于预设截断阈值，则得到所述待检测文本数据出现语气截断的检测结果。 6.根据权利要求1或2所述的语义截断检测方法，其特征在于，所述获取第一语料数据，根据所述第一语料数据得到多个语义截断类型，包括：获取预标注的第一语料数据；对所述第一语料数据进行预处理和分词处理，得到第二语料数据；根据预设语义维度和所述第二语料数据，得到多个语义截断类型，其中，所述预设语义维度包括句长、首尾字、句式结构、词性顺序、频率分布至少之一。 7.根据权利要求1所述的语义截断检测方法，其特征在于，所述BERT分类模型包括全连接层和两个Transformer层，所述将所述训练集输入至初始BERT模型中进行训练，包括：将所述训练集中的数据输入至初始BERT模型中的Transformer层；将最后一个所述Transformer层的输出向量输入至所述全连接层，输出两个类别的概率预测得分，其中，所述概率预测得分包括截断预测得分和非截断预测得分；若所述截断预测得分高于或等于预设截断阈值，则输出表示出现语义截断的预测结果；根据所述训练集和所述预测结果训练所述初始BERT模型。 8.一种语义截断检测装置，其特征在于，包括：第一获取模块，用于获取待检测文本数据；第二获取模块，用于获取第一语料数据，根据所述第一语料数据得到多个语义截断类型，其中，所述第一语料数据为出现语义截断的历史文本数据；判断模块，用于判断所述待检测文本数据所属的语义截断类型；检测模块，用于根据所述语义截断类型，通过预设规则和/或预先训练好的BERT分类模型对所述待检测文本数据进行检测，得到所述待检测文本数据是否出现语义截断的检测结果；第三获取模块，用于获取业务语料数据，其中，所述业务语料数据包括多条业务文本数据；正例构造模块，用于对每条所述业务文本数据选取一个随机位置进行切分，构造得到正例句子对，其中，所述正例句子对为存在截断关系的上下句；负例构造模块，用于选取任意两条所述业务文本数据，构造得到负例句子对，其中，所述负例句子对为非截断关系的上下句；训练模块，用于根据所述正例句子对和所述负例句子构建训练集，将所述训练集输入权　利　要　求　书 2/3 页 3 CN 114372476 A 3

专利 语义截断检测方法、装置、设备和计算机可读存储介质

专利语义截断检测方法、装置、设备和计算机可读存储介质