(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210022769.8
(22)申请日 2022.01.10
(65)同一申请的已公布的文献号
申请公布号 CN 114417883 A
(43)申请公布日 2022.04.29
(73)专利权人 马上消费金融股份有限公司
地址 401120 重庆市渝北区黄山大道中段
52号渝兴广场B2栋4至8楼
(72)发明人 李长林 权佳成 曹磊
(74)专利代理 机构 北京国昊天诚知识产权代理
有限公司 1 1315
专利代理师 张敏
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/268(2020.01)
G06F 40/216(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(56)对比文件
CN 113761112 A,2021.12.07
CN 112631436 A,2021.04.09
CN 113051911 A,2021.0 6.29
CN 111143884 A,2020.0 5.12
CN 1089845 30 A,2018.12.1 1
CN 111666770 A,2020.09.15
US 2014316768 A1,2014.10.23
詹静 等.SE MBeF:一种基 于分片循环神经网
络的敏感高效的恶意代码行为检测框架. 《信息
安全学报》 .2019,
Arnaud Carayo l 等.Context-Sensitive
Languages, Rati onal Graphs and
Determinism. 《Logical Methods i n Computer
Science》 .20 06,第2卷(第2期),1-24.
审查员 张艳
(54)发明名称
一种数据处 理方法、 装置及设备
(57)摘要
本说明书实施例公开了一种数据处理方法、
装置及设备, 该方法包括: 获取待识别的目标文
本; 基于第一敏感词集合对目标文本进行敏感词
筛选, 得到目标文本中包含的第一敏感词, 第一
敏感词集合中所包含的敏感词的敏感程度低于
第一预设阈值; 若第一敏感词在预设语境下的语
义唯一, 则确定第一敏 感词为目标文本中的目标
敏感词; 若第一敏感词在预设语境下的语义不唯
一, 则基于目标文本、 第一敏感词对应的第一语
义特征和第一敏感词对应的第二语义特征, 确定
第一敏感词是否为目标文本中的目标敏感词。 通
过上述方法, 有效提高了对 敏感词进行识别的准
确率。
权利要求书3页 说明书19页 附图9页
CN 114417883 B
2022.10.25
CN 114417883 B
1.一种数据处 理方法, 其特 征在于, 所述方法包括:
获取待识别的目标文本;
基于第一敏感词集合对所述目标文本进行敏感词筛选, 得到所述目标文本 中包含的第
一敏感词, 所述第一敏感词集 合中所包 含的敏感词的敏感程度低于第一预设阈值;
若所述第一敏感词在预设语境下的语义唯一, 则确定所述第 一敏感词为所述目标文本
中的目标 敏感词;
若所述第一敏感词在预设语境下的语义不唯一, 则基于所述目标文本、 所述第一敏感
词对应的第一语义特征和所述第一敏感词对应的第二语义特征, 确定所述第一敏感词是否
为所述目标文本中的目标 敏感词。
2.根据权利要求1所述的方法, 其特征在于, 所述第 一敏感词集合包括名词词性对应的
敏感词子集合、 动词词性对应的敏感词子集合和形容词词性对应的敏感词子集合中的一种
或多种;
所述若所述第 一敏感词在预设语境下的语义唯一, 则确定所述第 一敏感词为所述目标
文本中的目标 敏感词, 包括:
若所述第一敏感词在预设语境下的语义唯一, 则获取所述第 一敏感词在所述目标文本
中的目标词性;
基于所述目标词性, 确定所述第 一敏感词为所述目标词性对应的敏感词子集合中的目
标敏感词。
3.根据权利要求1所述的方法, 其特征在于, 所述第 一敏感词集合包括所述敏感词对应
的第一语义特 征和第二语义特 征;
所述若所述第一敏感词在预设语境下的语义不唯一, 则基于所述目标文本、 所述第一
敏感词对应的第一语义特征和所述第一敏感词对应的第二语义特征, 确定所述第一敏感词
是否为所述目标文本中的目标 敏感词, 包括:
基于所述第 一敏感词, 从所述第 一敏感词集合中获取所述第 一敏感词对应的第 一语义
特征和所述第一敏感词对应的第二语义特 征;
基于所述目标文本, 确定所述第一敏感词在所述目标文本中的第三语义特 征;
基于所述第三语义特征、 所述第一语义特征以及所述第二语义特征, 确定所述第一敏
感词是否为所述目标文本中的目标 敏感词。
4.根据权利要求3所述的方法, 其特征在于, 所述基于所述第三语义特征、 所述第一语
义特征以及所述第二语义特征, 确定所述第一敏感词是否为所述目标文本中的目标敏感
词, 包括:
基于所述第三语义特征、 所述第一语义特征以及所述第二语义特征, 确定所述第三语
义特征与所述第一语义特征之 间的第一相似度, 以及所述第三语义特征与所述第二语义特
征之间的第二相似度;
基于所述第 一相似度和所述第 二相似度, 确定所述第 一敏感词是否为所述目标文本中
的目标敏感词。
5.根据权利要求2中任一项所述的方法, 其特 征在于, 所述方法还 包括:
将所述目标文本中除与所述第一敏感词集合中相同的敏感词之外的文本信息输入到
第一模型中, 得到所述 目标文本中的目标敏感词, 所述第一模型是基于多个所述敏感程度权 利 要 求 书 1/3 页
2
CN 114417883 B
2高于所述第一预设阈值的敏感词训练得到 。
6.根据权利要求5所述的方法, 其特征在于, 在所述获取待识别的目标文本之前, 所述
方法还包括:
将预设样本 输入至第一模型中, 输出 所述预设样本中包 含的多个敏感词;
基于所述预设样本 中包含的多个敏感词, 确定所述预设样本 中所包含的多个敏感词的
敏感程度, 所述敏感程度用于评价所述预设样本中包含的多个敏感词中的每个敏感词的识
别准确率;
基于所述预设样本中所包含的多个敏感词的敏感程度, 确定所述第一敏感词集合, 以
及用于对所述第一模型进行模型训练的第二敏感词集 合。
7.根据权利要求6所述的方法, 其特征在于, 所述基于所述预设样本 中所包含的多个敏
感词的敏感程度, 确定所述第一敏感词集 合, 包括:
若所述多个敏感词中包括在预设语境下的语义唯一的多个敏感词, 则获取所述语义唯
一的多个敏感词在所述预设样本中的词性, 所述词性包括名词、 动词、 形容词中的至少一
种;
基于所述语义唯一的多个敏感词的敏感程度和所述语义唯一的多个敏感词的词性, 确
定各种词性各自对应的敏感词子集 合;
基于所述各种词性各自对应的敏感词子集 合, 确定所述第一敏感词集 合。
8.根据权利要求6所述的方法, 其特征在于, 所述基于所述预设样本 中所包含的多个敏
感词的敏感程度, 确定所述第一敏感词集合, 以及用于对所述第一模型进行模型训练的第
二敏感词集 合, 包括:
基于所述多个敏感词的敏感程度, 确定所述多个敏感词各自对应的第一识别准确率,
以及所述预设样本中所有敏感词的第二识别准确率;
基于所述多个敏感词各自对应的第 一识别准确率和所述第 二识别准确率, 确定所述第
一敏感词集 合和所述第二敏感词集 合。
9.根据权利要求8所述的方法, 其特征在于, 基于所述多个敏感词各自对应的第 一识别
准确率和所述第二识别准确率, 确定所述第一敏感词集 合和所述第二敏感词集 合, 包括:
针对所述多个敏感词各自对应的第一识别准确率执 行下述处理:
在第一识别准确率小于所述第 二识别准确率, 且所述第 一识别准确率与所述第 二识别
准确率之 间的差值满足预设条件的情况下, 确定与所述第一识别准确率对应的敏感词的标
识, 将携带 所述标识的敏感词添加至所述第二敏感词集 合;
或者, 在第一识别准确率大于所述第二识别准确率的情况下, 确定与所述第一识别准
确率对应的敏感词的标识, 将携带 所述标识的敏感词添加至所述第二敏感词集 合;
或者, 在第一识别准确率小于所述第二识别准确率, 且所述第一识别准确率与所述第
二识别准确率之间的差值不满足预设条件的情况下, 确定与所述第一识别准确率对应的敏
感词的标识, 将携带 所述标识的敏感词添加至所述第一敏感词集 合。
10.一种数据处 理装置, 其特 征在于, 所述装置包括:
文本获取模块, 被 配置为获取待识别的目标文本;
敏感词筛选模块, 被配置为基于第一敏感词集合对所述目标文本进行敏感词筛选, 得
到所述目标文本中包含的第一敏感词, 所述第一敏感词集合中所包含的敏感词的敏感程度权 利 要 求 书 2/3 页
3
CN 114417883 B
3
专利 一种数据处理方法、装置及设备
文档预览
中文文档
32 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共32页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:34:00上传分享