standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210108111.9 (22)申请日 2022.01.28 (71)申请人 来也科技 (北京) 有限公司 地址 100080 北京市海淀区丹棱 街3号B座 17层1-43单 元 (72)发明人 张翼  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 杜月 (51)Int.Cl. G06V 30/40(2022.01) G06V 30/14(2022.01) G06F 40/242(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06Q 10/10(2012.01) (54)发明名称 基于AI和RPA的公文文件处理方法、 装置、 设 备和介质 (57)摘要 本公开提出一种基于AI和RPA的公文文件处 理方法、 装置、 设备和介质, 涉及 AI和RPA领域, 其 中, 方法包括: 控制RPA机器人对公文文件进行字 符识别, 以得到公文内容; 针对公文内容中的任 意一个源语句, 获取与源语句语义匹配的至少一 个候选语句; 确定源语句中多个词语 之间的第一 匹配度, 及各候选语句中多个词语 之间的第二匹 配度; 根据第一匹配度和第二匹配度, 从源语句 与各候选语句中确定目标语句; 在目标语句和源 语句存在差异的情况下, 控制RPA机器人根据差 异, 生成并发送源语句对应的第一提示信息, 以 提示对源语句进行修改。 由此, 通过 RPA机器人自 动对公文文件的公文内容进行审核, 可降低审核 难度及人工参与量, 提高公文文件审核的时效 性。 权利要求书3页 说明书21页 附图7页 CN 114511858 A 2022.05.17 CN 114511858 A 1.一种基于人工智能AI和机器人流程自动化RPA的公文文件处理方法, 其特征在于, 包 括: 控制RPA机器人获取公文 文件, 并对所述公文 文件进行字符识别, 以得到公文内容; 针对所述公文内容中的任意一个源语句, 控制所述RPA机器人获取与所述源语句语义 匹配的至少一个候选语句; 控制所述RPA机器人确定所述源语句中多个词语之间的第一匹配度, 以及确定各所述 候选语句中多个词语之间的第二匹配度; 控制所述RPA机器人根据 所述源语句的第一匹配度和各所述候选语句对应的第 二匹配 度, 从所述源语句与各 所述候选语句中确定目标语句; 在所述目标语句和所述源语句存在差异的情况下, 控制所述RPA机器人根据所述差异, 生成并发送所述源语句对应的第一提示信息, 其中, 所述第一提示信息用于提示根据所述 差异对所述公文 文件中的所述源语句进行修改。 2.根据权利要求1所述的方法, 其特征在于, 所述控制所述RPA机器人确定所述源语句 中多个词语之间的第一匹配度, 包括: 控制所述RPA机器人基于自然语言处理NLP技术, 对所述源语句进行分词处理, 得到所 述源语句中的各子词; 针对各所述子词中的任意一个目标子词, 控制所述RPA机器人根据所述源语句中位于 所述目标子词之前 的各候选子词, 确定所述 目标子词的条件概率, 或者, 根据设定子词, 确 定所述目标子词的条件概 率; 控制所述RPA机器人根据各 所述子词的条件概 率, 确定所述源语句的第一匹配度。 3.根据权利要求1所述的方法, 其特征在于, 所述控制RPA机器人获取与所述源语句语 义匹配的至少一个候选语句, 包括: 控制所述RPA机器人根据 预设短语库和/或预设词典, 生成与所述源语句语义匹配的至 少一个候选语句; 和/或, 控制所述RPA机器人从预设公文语料库中, 获取与所述源语句语义匹配的至少一个候 选语句; 和/或, 控制所述RPA机器人从修改例句库中, 获取与所述源语句语义匹配的至少一个候选语 句。 4.根据权利要求3所述的方法, 其特征在于, 所述控制RPA机器人获取与所述源语句语 义匹配的至少一个候选语句之后, 所述方法还 包括: 控制所述RPA机器人以所述源语句为中心, 从所述公文内容中截取设定窗口长度内的 目标文本信息; 基于所述目标文本信息, 确定所述源语句与各 所述候选语句之间的相似度; 根据各所述候选语句的相似度, 筛选并保留所述相似度高于设定相似度阈值的所述候 选语句。 5.根据权利要求4所述的方法, 其特征在于, 所述基于所述目标文本信息, 确定所述源 语句与各 所述候选语句之间的相似度, 包括:权 利 要 求 书 1/3 页 2 CN 114511858 A 2针对任意一个所述候选语句, 确定所述候选语句与所述目标文本信 息中各语句之间的 关联度; 从所述目标文本信息中的各语句中, 确定关联度高于设定关联度阈值的关联语句; 基于所述关联语句, 确定所述源语句与所述 候选语句之间的相似度。 6.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 控制所述RPA机器人识别所述公文内容的目标公文 要素; 根据预设参考公文要素和所述目标公文要素, 确定所述公文内容中是否存在缺失的公 文要素; 响应于所述公文内容中存在缺失的公文要素, 生成并发送第 二提示信 息, 其中, 所述第 二提示信息, 用于提 示所述公文 文件中缺失的公文 要素。 7.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 控制所述RPA机器人识别所述公文内容的错误类型, 其中, 所述错误类型包括: 字词错 误、 标点使用错误、 序号使用错误、 字体使用错误、 字号使用错误、 段落格式错误、 重复类型 错误、 排序不当、 语句不 通、 用词不当、 语录引用错 误和附件标题错 误中的至少一项; 控制所述RPA机器人根据 所述错误类型生成并发送第 三提示信息, 其中, 所述第三提示 信息, 用于提 示根据所述 错误类型对所述公文 文件进行纠正处 理。 8.一种基于人工智能AI和机器人流程自动化RPA的公文文件处理装置, 其特征在于, 包 括: 第一识别模块, 用于控制RPA机器人获取公文文件, 并对所述公文文件进行字符识别, 以得到公文内容; 第一获取模块, 用于针对所述公文内容中的任意一个源语句, 控制所述RPA机器人获取 与所述源语句语义匹配的至少一个候选语句; 第一确定模块, 用于控制所述RPA机器人确定所述源语句中多个词语之间的第一匹配 度, 以及确定各 所述候选语句中多个词语之间的第二匹配度; 第二确定模块, 用于控制所述RPA机器人根据所述源语句的第一匹配度和各所述候选 语句对应的第二匹配度, 从所述源语句与各 所述候选语句中确定目标语句; 第一处理模块, 用于在所述目标语句和所述源语句存在差异的情况下, 控制所述RPA机 器人根据所述差异, 生成并发送所述源语句对应的第一提示信息, 其中, 所述第一提示信息 用于提示根据所述差异对所述公文 文件中的所述源语句进行修改。 9.根据权利要求8所述的装置, 其特 征在于, 所述第一确定模块, 用于: 控制所述RPA机器人基于自然语言处理NLP技术, 对所述源语句进行分词处理, 得到所 述源语句中的各子词; 针对各所述子词中的任意一个目标子词, 控制所述RPA机器人根据所述源语句中位于 所述目标子词之前 的各候选子词, 确定所述 目标子词的条件概率, 或者, 根据设定子词, 确 定所述目标子词的条件概 率; 控制所述RPA机器人根据各 所述子词的条件概 率, 确定所述源语句的第一匹配度。 10.根据权利要求8所述的装置, 其特 征在于, 所述第一获取模块, 用于: 控制所述RPA机器人根据 预设短语库和/或预设词典, 生成与所述源语句语义匹配的至 少一个候选语句;权 利 要 求 书 2/3 页 3 CN 114511858 A 3

PDF文档 专利 基于AI和RPA的公文文件处理方法、装置、设备和介质

文档预览
中文文档 32 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共32页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于AI和RPA的公文文件处理方法、装置、设备和介质 第 1 页 专利 基于AI和RPA的公文文件处理方法、装置、设备和介质 第 2 页 专利 基于AI和RPA的公文文件处理方法、装置、设备和介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:41上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。