(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210057008.6
(22)申请日 2022.01.18
(71)申请人 平安科技 (深圳) 有限公司
地址 518000 广东省深圳市福田区福田街
道福安社区益田路5033号平 安金融中
心23楼
(72)发明人 赵仕豪 马骏 王少军
(74)专利代理 机构 广州嘉权专利商标事务所有
限公司 4 4205
代理人 廖慧贤
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/284(2020.01)
G06F 40/211(2020.01)
G06K 9/62(2022.01)
(54)发明名称
语义截断检测方法、 装置、 设备和计算机可
读存储介质
(57)摘要
本发明提供了一种语义截断检测方法、 装
置、 设备和计算机可读存储介质, 语义截断检测
方法包括获取待检测文本数据; 获取第一语料数
据并得到多个语义截断类型; 判断待检测文本数
据的语义截断类型; 根据语义截断类型, 通过预
设规则和/或BERT分类模型对待检测文本数据进
行检测, 得到检测结果; BERT分类模型通过以下
步骤得到: 获取业务语料数据; 对每条业务文本
数据选取一个随机位置进行切分, 构造得到正例
句子对; 选取任意两条业务文本数据, 构造得到
负例句子对; 根据正例句子对和负例句子对构建
训练集, 将训练集输入至初始BERT模型中进行训
练, 得到BERT分类模型; 能够更加准确地识别出
用户的意图, 减少因识别失败而增加的交互次
数, 提高用户的良好体验感。
权利要求书3页 说明书13页 附图5页
CN 114372476 A
2022.04.19
CN 114372476 A
1.一种语义截断检测方法, 其特 征在于, 包括:
获取待检测文本数据;
获取第一语料数据, 根据 所述第一语料数据 得到多个语义截断类型, 其中, 所述第一语
料数据为出现语义截断的历史文本数据;
判断所述待检测文本数据所属的语义截断类型;
根据所述语义截断类型, 通过预设规则和/或预先训练好的BERT分类模型对所述待检
测文本数据进行检测, 得到所述待检测文本数据是否出现语义截断的检测结果;
其中, 所述BERT分类模型通过以下训练步骤得到:
获取业务语料数据, 其中, 所述 业务语料数据包括多条业 务文本数据;
对每条所述业务文本数据选取一个随机位置进行切分, 构造得到正例句子对, 其中, 所
述正例句子对为存在截断关系的上 下句;
选取任意两条所述业务文本数据, 构造得到负例句子对, 其中, 所述负例句子对为非截
断关系的上 下句;
根据所述正例句子对和所述负例句子对构建训练集, 将所述训练集输入至初始BERT模
型中进行训练, 得到所述BERT分类模型。
2.根据权利要求1所述的语义截断检测方法, 其特征在于, 所述多个语义截断类型包括
第一截断类型、 第二截断类型和 第三截断类型, 所述预设规则包括第一匹配字典、 第二匹配
字典和第三匹配字典, 所述根据所述语义截断类型, 通过预设规则和/或预先训练好的BERT
分类模型对所述待检测文本数据进行检测, 包括以下至少之一:
若所述待检测文本数据属于第 一截断类型, 根据 所述第一匹配字典对所述待检测文本
数据进行匹配, 其中, 所述第一截断类型表示出现语气词;
若所述待检测文本数据属于第二截断类型, 根据所述第 二匹配字典和所述BERT分类模
型对所述待检测文本数据进行检测, 其中, 所述第二截断类型表示出现停顿或中断词汇;
若所述待检测文本数据属于第三截断类型, 根据所述第 三匹配字典和所述BERT分类模
型对所述待检测文本数据进行检测, 其中, 所述第三截断类型表示出现口语习惯词汇。
3.根据权利要求2所述的语义截断检测方法, 其特征在于, 所述第 一匹配字典预存有多
个语气词; 所述得到所述待检测文本数据是否出现语义截断的检测结果, 包括:
若所述待检测文本数据匹配到所述第 一匹配字典中的语气词, 则得到所述待检测文本
数据出现语义截断的检测结果。
4.根据权利要求2所述的语义截断检测方法, 其特征在于, 所述第 二匹配字典预存有多
个停顿词汇和中断词汇; 所述根据所述第二匹配字典和所述BERT分类模型对所述待检测文
本数据进行检测, 包括:
根据所述第二匹配字典对所述待检测文本数据的开头及结尾进行匹配;
若所述待检测文本数据不能匹配到所述第二匹配字典中的词 汇, 通过所述BERT分类模
型进行检测并输出概率预测得分, 其中, 所述概率预测得分包括截断预测得分和非截断预
测得分;
所述得到所述待检测文本数据是否出现语义截断的检测结果, 包括:
若所述截断预测得分高于或等于预设截断阈值, 则得到所述待检测文本数据 出现语义
截断的检测结果。权 利 要 求 书 1/3 页
2
CN 114372476 A
25.根据权利要求2所述的语义截断检测方法, 其特征在于, 所述第 三匹配字典预存有多
个口语习惯词汇; 所述根据所述第三匹配字典和所述BERT分类模型对 所述待检测文本数据
进行检测, 包括:
根据所述第三匹配字典对所述待检测文本数据的结尾进行匹配;
若所述待检测文本数据不能匹配到所述第三匹配字典中的词 汇, 通过所述BERT分类模
型进行检测并输出概率预测得分, 其中, 所述概率预测得分包括截断预测得分和非截断预
测得分;
所述得到所述待检测文本数据是否出现语义截断的检测结果, 包括:
若所述截断预测得分高于或等于预设截断阈值, 则得到所述待检测文本数据 出现语气
截断的检测结果。
6.根据权利要求1或2所述的语义截断检测方法, 其特征在于, 所述获取第 一语料数据,
根据所述第一语料 数据得到多个 语义截断类型, 包括:
获取预标注的第一语料 数据;
对所述第一语料 数据进行 预处理和分词处 理, 得到第二语料 数据;
根据预设语义维度和所述第 二语料数据, 得到多个语义截断类型, 其中, 所述预设语义
维度包括句长、 首尾字、 句式结构、 词性 顺序、 频率分布至少之一。
7.根据权利要求1所述的语义截断检测方法, 其特征在于, 所述BERT分类模型包括全连
接层和两个Transformer层, 所述将所述训练集输入至初始BERT模型中进行训练, 包括:
将所述训练集中的数据输入至初始BERT模型中的Transformer层;
将最后一个所述Transformer层的输出向量输入至所述全连接层, 输出两个类别的概
率预测得分, 其中, 所述 概率预测得分包括截断预测得分和非截断预测得分;
若所述截断预测得分高于或等于预设截断阈值, 则输出表示出现语义截断的预测结
果;
根据所述训练集和所述预测结果训练所述初始BERT模型。
8.一种语义截断检测装置, 其特 征在于, 包括:
第一获取模块, 用于获取待检测文本数据;
第二获取模块, 用于获取第一语料数据, 根据所述第一语料数据得到多个语义截断类
型, 其中, 所述第一语料 数据为出现语义截断的历史文本数据;
判断模块, 用于判断所述待检测文本数据所属的语义截断类型;
检测模块, 用于根据所述语义截断类型, 通过预设规则和/或预先训练好的BERT分类模
型对所述待检测文本数据进行检测, 得到所述待检测文本数据是否出现语义截断的检测结
果;
第三获取模块, 用于获取业务语料数据, 其中, 所述业务语料数据包括多条业务文本数
据;
正例构造模块, 用于对每条所述业务文本数据选取一个随机位置进行切分, 构造得到
正例句子对, 其中, 所述 正例句子对为存在截断关系的上 下句;
负例构造模块, 用于选取任意两条所述业务文本数据, 构造得到负例句子对, 其中, 所
述负例句子对为非截断关系的上 下句;
训练模块, 用于根据所述正例句子对和所述负例句子构建训练集, 将所述训练集输入权 利 要 求 书 2/3 页
3
CN 114372476 A
3
专利 语义截断检测方法、装置、设备和计算机可读存储介质
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:52上传分享