(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210130589.1
(22)申请日 2022.02.11
(71)申请人 兴业消费金融股份公司
地址 362017 福建省泉州市丰泽区丰泽 街
213号兴业银行 大厦第17层
(72)发明人 王广敏
(74)专利代理 机构 北京康信知识产权代理有限
责任公司 1 1240
专利代理师 刘晓燕
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/242(2020.01)
G06F 40/216(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
文本类别的识别方法和装置、 存储介质及电
子装置
(57)摘要
本申请公开了一种文本类别的识别方法和
装置、 存储介质及电子装置, 其中, 上述方法包
括: 获取待识别文本的至少一个文本关键词; 根
据至少一个文本关键词中的每个文本关键词与
多个类别中的每个类别对应的权重值, 确定与每
个类别对应的类别权重; 将与每个类别对应的类
别权重中最大的类别权重所对应的类别, 确定为
候选类别; 在与候选类别对应的类别权重大于或
者等于目标阈值的情况下, 将候选类别确定为与
待识别文本对应的类别。 通过本申请, 解决了相
关技术中的文本类别的识别方法存在由于需要
结合上下文实现对语义的理解导致对于短文本
识别的准确性低的问题。
权利要求书2页 说明书16页 附图3页
CN 114462405 A
2022.05.10
CN 114462405 A
1.一种文本类别的识别方法, 其特 征在于, 包括:
获取待识别文本的至少一个文本关键词;
根据所述至少一个文本关键词中的每个文本关键词与多个类别中的每个类别对应的
权重值, 确定与所述每 个类别对应的类别权 重;
将与所述每个类别对应的类别权重中最大的类别权重所对应的类别, 确定为候选类
别;
在与所述候选类别对应的类别权重大于或者等于目标阈值的情况下, 将所述候选类别
确定为与所述待识别文本对应的类别。
2.根据权利要求1所述的方法, 其特征在于, 在所述获取待识别文本的至少一个文本关
键词之前, 所述方法还 包括:
按照目标词典中的多个参考关键词, 从所述待识别文本中提取出所述至少一个文本关
键词, 其中, 所述多个参考关键词中的每个参考关键词与所述多个类别中的至少一个类别
对应的权 重值不为零。
3.根据权利要求2所述的方法, 其特征在于, 在所述按照目标词典中的多个参考关键
词, 从所述待识别文本中提取 出所述至少一个文本关键词之前, 所述方法还 包括:
对所述待识别文本执行过滤操作, 得到过滤后的所述待识别文本, 其中, 所述过滤操作
用于过滤所述待识别文本中以下之一的信息: 异常值信息, 预定字符, 无效文本信息, 所述
无效文本信息为在所述多个 类别中, 对应的权 重值均为 零的文本信息 。
4.根据权利要求2所述的方法, 其特征在于, 所述按照目标词典中的多个参考关键词,
从所述待识别文本中提取 出所述至少一个文本关键词, 包括:
按照所述多个参 考关键词, 从所述待识别文本中提取 出至少一个候选关键词;
在所述至少一个候选关键词中包含具有重叠部分的关键词的情况下, 移除所述具有重
叠部分的关键词中, 除了包 含最多文本的关键词以外的其 他关键词。
5.根据权利要求2所述的方法, 其特征在于, 在所述按照目标词典中的多个参考关键
词, 从所述待识别文本中提取 出所述至少一个文本关键词之后, 所述方法还 包括:
在所述待识别文本包含除了所述至少一个文本关键词以外的其他文本信 息的情况下,
向第一设备发送第一提示信息, 其中, 所述第一提示信息用于提示所述待识别文本中存在
异常文本信息 。
6.根据权利要求2所述的方法, 其特征在于, 在所述获取待识别文本的至少一个文本关
键词之前, 所述方法还 包括:
按照所述多个参考关键词, 对已标注文本集中的每个已标注文本进行分词处理, 得到
所述每个已标注文本包 含的参考关键词, 其中, 所述已标注文本为已标注对应 类别的文本;
根据所述每个参考关键词在所述每个类别的已标注文本中出现的次数、 以及所述每个
类别的已标注文本中包含所述每个参考关键词的已标注文本的总数量, 确定所述每个参考
关键词与所述每 个类别对应的词频;
根据所述已标注文本集中包含所述每个参考关键词的已标注文本的数量、 以及所述已
标注文本集中包含的已标注文本的总数量, 确定与所述每个参考关键词对应的逆向文档频
率;
根据所述每个参考关键词与 所述每个类别对应的词频、 以及与 所述每个参考关键词对权 利 要 求 书 1/2 页
2
CN 114462405 A
2应的逆向文档频率, 确定所述每 个参考关键词与所述每 个类别对应的权 重值。
7.根据权利要求6所述的方法, 其特征在于, 在所述按照所述多个参考关键词, 对已标
注文本集中的每个已标注文本进 行分词处理, 得到所述每个已标注文本包含的参考关键词
之后, 所述方法还 包括:
在所述已标注文本集中的目标已标注文本中存在异常分词的情况下, 更新所述多个参
考关键词;
按照更新后的所述多个参考关键词, 对所述每个已标注文本重新进行分词处理, 得到
所述每个已标注文本所包 含的参考关键词。
8.根据权利要求1所述的方法, 其特征在于, 所述根据所述至少一个文本关键词中的每
个文本关键词与所述多个类别中的每个类别对应的权重值, 确定与所述每个类别对应的类
别权重, 包括:
在所述至少一个文本关键词包含一个文本关键词的情况下, 将所述一个文本关键词与
所述每个类别对应的权 重值, 确定为与所述每 个类别对应的类别权 重;
在所述至少一个文本关键词包含多个文本关键词的情况下, 对所述每个文本关键词与
所述每个类别对应的权 重值进行求和操作, 得到与所述每 个类别对应的类别权 重。
9.根据权利要求1至8中任一项所述的方法, 其特征在于, 在所述将与所述每个类别对
应的类别权 重中最大的类别权 重所对应的类别, 确定为 候选类别之后, 所述方法还 包括:
在与所述候选类别对应的类别权重小于目标阈值的情况下, 向第 二设备发送第 二提示
信息, 其中, 所述第二 提示信息用于提 示未识别出 所述待识别文本的类别。
10.一种文本类别的识别装置, 其特 征在于, 包括:
获取单元, 用于获取待识别文本的至少一个文本关键词;
第一确定单元, 用于根据所述至少一个文本关键词中的每个文本关键词与多个类别中
的每个类别对应的权 重值, 确定与所述每 个类别对应的类别权 重;
第二确定单元, 用于将与 所述每个类别对应的类别权重中最大的类别 权重所对应的类
别, 确定为 候选类别;
第三确定单元, 用于在与 所述候选类别对应的类别权重大于或者等于目标阈值的情况
下, 将所述 候选类别确定为与所述待识别文本对应的类别。
11.一种计算机可读的存储介质, 其特征在于, 所述计算机可读的存储介质包括存储的
程序, 其中, 所述 程序运行时执 行权利要求1至9中任一项所述的方法。
12.一种电子装置, 包括存储器和 处理器, 其特征在于, 所述存储器中存储有计算机程
序, 所述处 理器被设置为 通过所述计算机程序执 行权利要求1至9中任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 114462405 A
3
专利 文本类别的识别方法和装置、存储介质及电子装置
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:36上传分享