standard library
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210046034.9 (22)申请日 2022.01.14 (71)申请人 中国建设银行股份有限公司 地址 100033 北京市西城区金融大街25号 (72)发明人 赵若含 孙文岩 马腾 崔震  (74)专利代理 机构 中科专利商标代理有限责任 公司 11021 代理人 张体南 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/211(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 50/26(2012.01) (54)发明名称 政务敏感信息识别方法、 装置、 设备、 介质和 程序产品 (57)摘要 本公开提供了一种政务敏感信息识别方法。 该方法包括: 获取至少一条政务语句, 其中, 所述 至少一条政务语句包括与政务数据相关联的文 本内容; 基于所述至少一条政务语句的语义信 息, 生成第一句向量; 将所述第一句向量作为识 别模型的输入, 来获得所述识别模 型输出的分类 结果, 其中, 所述识别模 型包括神经网络模型; 根 据所述分类结果, 确定出所述至少一条政务语句 涉及的敏感信息, 其中, 所述分类结果包括对所 述至少一条政务语句的预测类别。 本公开还提供 了一种政务敏感信息识别装置、 设备、 存储介质 和程序产品。 权利要求书2页 说明书11页 附图5页 CN 114386408 A 2022.04.22 CN 114386408 A 1.一种政务敏感信息识别方法, 包括: 获取至少一条政务语句, 其中, 所述至少一条政务语句包括与政务数据相关联的文本 内容; 基于所述至少一条政务语句的语义信息, 生成第一句向量; 将所述第 一句向量作为识别模型的输入, 来获得所述识别模型输出的分类结果, 其中, 所述识别模型包括神经网络模型; 根据所述分类结果, 确定出所述至少一条政务语句涉及的敏感信 息, 其中, 所述分类结 果包括对所述至少一条政务语句的预测类别。 2.根据权利要求1所述的方法, 其中, 所述敏感信息包括敏感词, 所述根据所述分类结 果, 确定出所述至少一条政务语句涉及的敏感信息包括: 在所述预测类别为敏感类别的情 况下, 将所述至少一条政务语句作为第 一查询语句, 在敏感词库中进行查询, 其中, 所述敏感 词库中包括至少一个敏感词; 以及 获得从所述敏感词库返回的敏感词查询结果。 3.根据权利要求1所述的方法, 其中, 在将所述句向量作为识别模型的输入之前, 还包 括训练所述识别模型, 具体包括: 根据N条政务敏感信息识别规则, 获得N类训练样本, 其中, 每类所述训练样本包括具有 同一类别标签的M条文本语句, N、 M分别为大于或等于1的整数; 基于所述M条文本语句中每条文本语句的语义信息, 生成每条文本语句的第二句向量; 利用所述第二句向量训练所述识别模型。 4.根据权利要求3所述的方法, 其中, 所述神经网络模型包括多层感知机模型, 所述多 层感知机模型包括全连接层、 注意力层和输出层, 所述训练所述识别模型包括训练所述多 层感知机模型, 具体包括: 利用所述全连接层和所述注意力层处 理所述第二句向量; 将处理后的所述第 二句向量输入至所述输出层, 来获得每条文本语句对应的目标预测 类别, 其中, 所述目标 预测类别为所述 N个评分中评分最高的预测类别; 基于所述每条文本语句的目标预测类别, 与敏感类别标签的差异程度, 更新所述全连 接层、 所述注意力层和所述输出层中至少一层的网络参数。 5.根据权利要求4所述的方法, 其中, 所述全连接层包括第一全连接层、 第二全连接层 和第三全连接层, 所述利用所述全连接层和所述注意力层处 理所述第二句向量包括: 将所述第二句向量输入至所述第一全连接层进行处 理; 获得所述第一全连接层处 理后的所述第二句向量, 输入至所述第二全连接层; 获得所述第二全连接层处 理后的所述第二句向量, 输入至所述注意力层; 获得所述注意力层处理后的所述第二句向量, 输入至所述第三全连接层, 以使得所述 第三全连接层处 理后的所述第二句向量作为所述输出层的输入。 6.根据权利要求1所述的方法, 其中, 所述至少一条政务语句包括第二查询语句, 所述 第二查询语句用于查询政务信息, 所述方法还 包括: 在所述第二 查询语句的预测类别为敏感类别的情况 下, 拦截所述第二 查询语句; 或 在所述第二查询语句的预测类别为非敏感类别的情况下, 基于所述第 二查询语句进行权 利 要 求 书 1/2 页 2 CN 114386408 A 2查询。 7.根据权利要求1所述的方法, 其中: 在所述获取至少一条政务语句之前, 还 包括: 获取待发布政务文件, 所述待发布政务文件中包括所述至少一条政务语句; 其中, 所述方法还 包括: 在所述预测类别为敏感类别的情况 下, 拦截所述待发布政务文件; 或 在所述预测类别为非敏感类别的情况 下, 将所述待发布政务文件进行发布。 8.一种政务敏感信息识别装置, 包括: 语句获取模块, 用于获取至少一条政务语句, 其中, 所述至少一条政务语句包括与政务 数据相关联的文本内容; 向量生成模块, 用于基于所述至少一条政务语句的语义信息, 生成第一句向量; 分类结果模块, 用于将所述第一句向量作为识别模型的输入, 来获得所述识别模型输 出的分类结果, 其中, 所述识别模型包括神经网络模型; 敏感识别模块, 用于根据所述分类结果, 确定出所述至少一条政务语句涉及的敏感信 息, 其中, 所述分类结果包括对所述至少一条政务语句的预测类别。 9.一种电子设备, 包括: 一个或多个处 理器; 存储装置, 用于存 储一个或多个程序, 其中, 当所述一个或多个程序被所述一个或多个处理器执行时, 使得所述一个或多个 处理器执行根据权利要求1~7中任一项所述的方法。 10.一种计算机可读存储介质, 其上存储有可执行指令, 该指令被处理器执行时使处理 器执行根据权利要求1~7中任一项所述的方法。 11.一种计算机程序产品, 包括计算机程序, 所述计算机程序被处理器执行时实现根据 权利要求1~7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114386408 A 3

PDF文档 专利 政务敏感信息识别方法、装置、设备、介质和程序产品

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 政务敏感信息识别方法、装置、设备、介质和程序产品 第 1 页 专利 政务敏感信息识别方法、装置、设备、介质和程序产品 第 2 页 专利 政务敏感信息识别方法、装置、设备、介质和程序产品 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:55上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。