(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210106912.1
(22)申请日 2022.01.28
(65)同一申请的已公布的文献号
申请公布号 CN 114154493 A
(43)申请公布日 2022.03.08
(73)专利权人 北京芯盾时代科技有限公司
地址 102300 北京市门头沟区莲石湖西路
98号院5号楼 2201室
(72)发明人 刘登涛 孙悦 蔡准 郭晓鹏
(74)专利代理 机构 北京乐知新创知识产权代理
事务所(普通 合伙) 11734
专利代理师 江宇
(51)Int.Cl.
G06F 40/279(2020.01)
G06F 40/30(2020.01)G06F 40/166(2020.01)
(56)对比文件
CN 113297374 A,2021.08.24
CN 110362734 A,2019.10.2 2
CN 110472238 A,2019.1 1.19
审查员 王咏冬
(54)发明名称
一种短信类别的识别方法及装置
(57)摘要
本公开提供了一种短信类别的识别方法及
装置, 包括: 获取短信的待识别文本, 待识别文本
由多个字符组成, 字符包括特殊符号、 标点符号、
运算符号和/或文字; 从待识别文本中提取字符
向量组成字符向量矩阵; 将转置后的字符向量矩
阵计算每个字符的前向隐向量和后向隐向量, 拼
接前向隐向量和后向隐向量, 得到第一拼接向
量, 所有字符对应的第一拼接向量组成第一语义
矩阵; 将第一语义矩阵与字 符向量矩阵的转置相
加, 得到第二语义矩阵; 将第二语义矩阵与多组
参数矩阵相乘, 得到多组中间矩阵, 根据多组中
间矩阵得到对应的多个注意力值, 多个注意力值
组成注意力矩阵; 对注意力矩阵进行识别, 得到
概率值, 确定概率值满足条件的类别为待识别文
本的短信的类别。
权利要求书2页 说明书11页 附图7页
CN 114154493 B
2022.06.28
CN 114154493 B
1.一种短信类别的识别方法, 其特 征在于, 包括:
获取短信的待识别文本, 所述待识别文本由多个字符组成, 所述字符包括特殊符号、 标
点符号、 运 算符号和/或文字;
从所述待识别文本中提取每 个字符的字符向量, 所述字符向量组成字符向量矩阵;
将转置后的所述字符向量矩阵从前向和后向分别计算每个字符的前向隐向量和后向
隐向量, 拼接每个字符对应的所述前向隐向量和所述后向隐向量, 得到每个字符对应的第
一拼接向量, 所有字符对应的第一 拼接向量组成第一语义矩阵;
将所述第一语义矩阵与所述字符向量矩阵的转置相加, 得到第二语义矩阵;
将所述第二语义矩阵与多组参数矩阵相乘, 得到多组中间矩阵, 根据多组所述中间矩
阵得到对应的多个注意力值, 将每个字符对应的多个所述注意力值进行拼接, 得到每个字
符对应的第二 拼接向量, 所有字符对应的所述第二 拼接向量组成注意力矩阵;
对所述注意力矩阵进行识别, 得到所述短信对应各类别的概率值, 确定所述概率值满
足条件的类别为所述待识别文本的短信的类别。
2.根据权利要求1所述的短信类别的识别方法, 其特征在于, 所述获取短信的待识别文
本, 包括:
获取短信文本数据;
对所述短信文本数据去除停用词;
对去除了停用词的短信文本数据进行文本掩码。
3.根据权利要求2所述的短信类别的识别方法, 其特征在于, 所述对所述短信文本数据
去除停用词包括去除助词、 语气词和日期。
4.根据权利要求2所述的短信类别的识别方法, 其特 征在于,
所述文本掩码包括对网址、 微信号、 手机号和QQ号的非运营商、 地区以及网址的部分,
采用替代符号的方式进行替换。
5.根据权利要求1至4任一项所述的短信类别的识别方法, 其特征在于, 所述将转置后
所述字符向量矩阵从前向和后向分别计算每 个字符的前向隐向量和后向隐向量, 包括:
对所述字符向量矩阵从前向计算第 n个字符的前向隐向量时, 根据从前往后开始的第1
至第n个字符对应的所述字符向量, 计算出第n个字符的前向隐向量;
对所述字符向量矩阵从后向计算第 n个字符的后向隐向量时, 根据从后往前开始的第1
至第n个字符对应的所述字符向量, 计算出第n个字符的后向隐向量。
6.根据权利要求1所述的短信类别的识别方法, 其特征在于, 所述将所述第 二语义矩阵
与多组参数矩阵相乘, 得到多组中间矩阵, 包括:
获取多组参数矩阵, 每组所述参数矩阵包括Q、 K和V三个所述参数矩阵, 通过将每组所
述Q、 K和V分别乘以所述第二语义矩阵, 得到对应的每组所述中间矩阵, 每组所述中间矩阵
包括q、 k、 v三个所述中间矩阵。
7.根据权利要求6所述的短信类别的识别方法, 其特征在于, 所述根据多组所述中间矩
阵得到对应的多个注意力值, 包括:
根据所述中间矩阵, 按如下公式得到每 个字符的所述注意力值:权 利 要 求 书 1/2 页
2
CN 114154493 B
2所述q、 k和v为所述中间矩阵, 所述i为第i组, 所述j为第j个字符, 所述n为所述字符的
个数, 所述i、 所述j和所述o依次从1取到n, 所述softmax为归一化, 所述
为每个字符的所
述注意力值。
8.一种短信类别的识别装置, 其特 征在于, 包括:
获取模块, 用于获取短信的待识别文本, 所述待识别文本由多个字符组成, 所述字符包
括特殊符号、 标点符号、 运 算符号和/或文字;
处理模块, 用于从所述待识别文本中提取每个字符的字符向量, 所述字符向量组成字
符向量矩阵;
所述处理模块, 还用于将转置后的所述字符 向量矩阵从前向和后向分别计算每个字符
的前向隐向量和后向隐向量, 拼接每个字符对应的所述前向隐向量和所述后向隐向量, 得
到每个字符对应的第一 拼接向量, 所有字符对应的第一 拼接向量组成第一语义矩阵;
所述处理模块, 还用于将所述第一语义矩阵与所述字符向量矩阵的转置相加, 得到第
二语义矩阵;
所述处理模块, 还用于将所述第 二语义矩阵与多组参数矩阵相乘, 得到多组中间矩阵,
根据多组所述中间矩阵得到对应的多个注意力值, 将 每个字符对应的多个所述注意力值进
行拼接, 得到每个字符对应的第二拼接 向量, 所有字符对应的所述第二拼接 向量组成注意
力矩阵;
识别模块, 用于对所述注意力矩阵进行识别, 得到所述短信对应各类别的概率值, 确定
所述概率值满足条件的类别为所述待识别文本的短信的类别。
9.根据权利要求8所述的短信类别的识别装置, 其特征在于, 包括: 所述获取模块, 还用
于获取短信文本数据;
对所述短信文本数据去除停用词;
对去除了停用词的短信文本数据进行文本掩码。
10.根据权利要求9所述的短信类别的识别装置, 其特征在于, 包括: 所述获取模块, 还
用于对所述短信文本数据去除停用词包括去除助词、 语气词和日期。权 利 要 求 书 2/2 页
3
CN 114154493 B
3
专利 一种短信类别的识别方法及装置
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:40上传分享