专利 一种数据处理方法、装置及设备

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210022769.8 (22)申请日 2022.01.10 (65)同一申请的已公布的文献号申请公布号 CN 114417883 A (43)申请公布日 2022.04.29 (73)专利权人马上消费金融股份有限公司地址 401120 重庆市渝北区黄山大道中段 52号渝兴广场B2栋4至8楼 (72)发明人李长林　权佳成　曹磊　 (74)专利代理机构北京国昊天诚知识产权代理有限公司 1 1315 专利代理师张敏 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/268(2020.01) G06F 40/216(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (56)对比文件 CN 113761112 A,2021.12.07 CN 112631436 A,2021.04.09 CN 113051911 A,2021.0 6.29 CN 111143884 A,2020.0 5.12 CN 1089845 30 A,2018.12.1 1 CN 111666770 A,2020.09.15 US 2014316768 A1,2014.10.23 詹静等.SE MBeF:一种基于分片循环神经网络的敏感高效的恶意代码行为检测框架. 《信息安全学报》 .2019, Arnaud Carayo l 等.Context-Sensitive Languages, Rati onal Graphs and Determinism. 《Logical Methods i n Computer Science》 .20 06,第2卷(第2期),1-24. 审查员张艳 (54)发明名称一种数据处理方法、装置及设备 (57)摘要本说明书实施例公开了一种数据处理方法、装置及设备，该方法包括：获取待识别的目标文本；基于第一敏感词集合对目标文本进行敏感词筛选，得到目标文本中包含的第一敏感词，第一敏感词集合中所包含的敏感词的敏感程度低于第一预设阈值；若第一敏感词在预设语境下的语义唯一，则确定第一敏感词为目标文本中的目标敏感词；若第一敏感词在预设语境下的语义不唯一，则基于目标文本、第一敏感词对应的第一语义特征和第一敏感词对应的第二语义特征，确定第一敏感词是否为目标文本中的目标敏感词。通过上述方法，有效提高了对敏感词进行识别的准确率。权利要求书3页说明书19页附图9页 CN 114417883 B 2022.10.25 CN 114417883 B 1.一种数据处理方法，其特征在于，所述方法包括：获取待识别的目标文本；基于第一敏感词集合对所述目标文本进行敏感词筛选，得到所述目标文本中包含的第一敏感词，所述第一敏感词集合中所包含的敏感词的敏感程度低于第一预设阈值；若所述第一敏感词在预设语境下的语义唯一，则确定所述第一敏感词为所述目标文本中的目标敏感词；若所述第一敏感词在预设语境下的语义不唯一，则基于所述目标文本、所述第一敏感词对应的第一语义特征和所述第一敏感词对应的第二语义特征，确定所述第一敏感词是否为所述目标文本中的目标敏感词。 2.根据权利要求1所述的方法，其特征在于，所述第一敏感词集合包括名词词性对应的敏感词子集合、动词词性对应的敏感词子集合和形容词词性对应的敏感词子集合中的一种或多种；所述若所述第一敏感词在预设语境下的语义唯一，则确定所述第一敏感词为所述目标文本中的目标敏感词，包括：若所述第一敏感词在预设语境下的语义唯一，则获取所述第一敏感词在所述目标文本中的目标词性；基于所述目标词性，确定所述第一敏感词为所述目标词性对应的敏感词子集合中的目标敏感词。 3.根据权利要求1所述的方法，其特征在于，所述第一敏感词集合包括所述敏感词对应的第一语义特征和第二语义特征；所述若所述第一敏感词在预设语境下的语义不唯一，则基于所述目标文本、所述第一敏感词对应的第一语义特征和所述第一敏感词对应的第二语义特征，确定所述第一敏感词是否为所述目标文本中的目标敏感词，包括：基于所述第一敏感词，从所述第一敏感词集合中获取所述第一敏感词对应的第一语义特征和所述第一敏感词对应的第二语义特征；基于所述目标文本，确定所述第一敏感词在所述目标文本中的第三语义特征；基于所述第三语义特征、所述第一语义特征以及所述第二语义特征，确定所述第一敏感词是否为所述目标文本中的目标敏感词。 4.根据权利要求3所述的方法，其特征在于，所述基于所述第三语义特征、所述第一语义特征以及所述第二语义特征，确定所述第一敏感词是否为所述目标文本中的目标敏感词，包括：基于所述第三语义特征、所述第一语义特征以及所述第二语义特征，确定所述第三语义特征与所述第一语义特征之间的第一相似度，以及所述第三语义特征与所述第二语义特征之间的第二相似度；基于所述第一相似度和所述第二相似度，确定所述第一敏感词是否为所述目标文本中的目标敏感词。 5.根据权利要求2中任一项所述的方法，其特征在于，所述方法还包括：将所述目标文本中除与所述第一敏感词集合中相同的敏感词之外的文本信息输入到第一模型中，得到所述目标文本中的目标敏感词，所述第一模型是基于多个所述敏感程度权　利　要　求　书 1/3 页 2 CN 114417883 B 2高于所述第一预设阈值的敏感词训练得到。 6.根据权利要求5所述的方法，其特征在于，在所述获取待识别的目标文本之前，所述方法还包括：将预设样本输入至第一模型中，输出所述预设样本中包含的多个敏感词；基于所述预设样本中包含的多个敏感词，确定所述预设样本中所包含的多个敏感词的敏感程度，所述敏感程度用于评价所述预设样本中包含的多个敏感词中的每个敏感词的识别准确率；基于所述预设样本中所包含的多个敏感词的敏感程度，确定所述第一敏感词集合，以及用于对所述第一模型进行模型训练的第二敏感词集合。 7.根据权利要求6所述的方法，其特征在于，所述基于所述预设样本中所包含的多个敏感词的敏感程度，确定所述第一敏感词集合，包括：若所述多个敏感词中包括在预设语境下的语义唯一的多个敏感词，则获取所述语义唯一的多个敏感词在所述预设样本中的词性，所述词性包括名词、动词、形容词中的至少一种；基于所述语义唯一的多个敏感词的敏感程度和所述语义唯一的多个敏感词的词性，确定各种词性各自对应的敏感词子集合；基于所述各种词性各自对应的敏感词子集合，确定所述第一敏感词集合。 8.根据权利要求6所述的方法，其特征在于，所述基于所述预设样本中所包含的多个敏感词的敏感程度，确定所述第一敏感词集合，以及用于对所述第一模型进行模型训练的第二敏感词集合，包括：基于所述多个敏感词的敏感程度，确定所述多个敏感词各自对应的第一识别准确率，以及所述预设样本中所有敏感词的第二识别准确率；基于所述多个敏感词各自对应的第一识别准确率和所述第二识别准确率，确定所述第一敏感词集合和所述第二敏感词集合。 9.根据权利要求8所述的方法，其特征在于，基于所述多个敏感词各自对应的第一识别准确率和所述第二识别准确率，确定所述第一敏感词集合和所述第二敏感词集合，包括：针对所述多个敏感词各自对应的第一识别准确率执行下述处理：在第一识别准确率小于所述第二识别准确率，且所述第一识别准确率与所述第二识别准确率之间的差值满足预设条件的情况下，确定与所述第一识别准确率对应的敏感词的标识，将携带所述标识的敏感词添加至所述第二敏感词集合；或者，在第一识别准确率大于所述第二识别准确率的情况下，确定与所述第一识别准确率对应的敏感词的标识，将携带所述标识的敏感词添加至所述第二敏感词集合；或者，在第一识别准确率小于所述第二识别准确率，且所述第一识别准确率与所述第二识别准确率之间的差值不满足预设条件的情况下，确定与所述第一识别准确率对应的敏感词的标识，将携带所述标识的敏感词添加至所述第一敏感词集合。 10.一种数据处理装置，其特征在于，所述装置包括：文本获取模块，被配置为获取待识别的目标文本；敏感词筛选模块，被配置为基于第一敏感词集合对所述目标文本进行敏感词筛选，得到所述目标文本中包含的第一敏感词，所述第一敏感词集合中所包含的敏感词的敏感程度权　利　要　求　书 2/3 页 3 CN 114417883 B 3

专利 一种数据处理方法、装置及设备

专利一种数据处理方法、装置及设备