(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210697537.2
(22)申请日 2022.06.20
(71)申请人 江苏省联合征信有限公司
地址 210000 江苏省南京市 建邺区江东中
路373号20层
(72)发明人 陈健 周云松 叶俊 齐宁
王培才 韩宇
(74)专利代理 机构 南京众联专利代理有限公司
32206
专利代理师 叶涓涓
(51)Int.Cl.
G06Q 10/10(2012.01)
G06V 10/74(2022.01)
G06V 10/75(2022.01)
G06V 10/764(2022.01)G06V 10/774(2022.01)
(54)发明名称
一种自动审核证明材 料的方法和装置
(57)摘要
本发明提供了一种自动审核证明材料的方
法和装置, 能够自动分析判断用户上传的证明材
料是否规范, 极大提升整体审核效率, 准确度高。
本发明利用模板配置功能, 配置不同证明材料的
模板以及相似度阈值; 根据相似度算法, 根据用
户上传的不同模板, 计算用户上传证明材料与模
板的相似度, 并能预先过滤不符合要求的图片数
据。 本发明通过采集不同的模板训练数据利用工
具标注不同模块的证明材料训练数据, 然后训练
改进adaboost算法, 得出图片审核算法, 并且利
用人工复核模块得出的数据集再次作为训练样
本, 递归训练审核算法, 提升算法精度。
权利要求书3页 说明书6页 附图4页
CN 115018464 A
2022.09.06
CN 115018464 A
1.一种自动审核证明材 料的方法, 其特 征在于, 包括如下步骤:
步骤1: 配置上传系统需要审核的证明材 料模板, 具体包括:
步骤1.1, 收集当前业 务系统需要审核的证明材 料类别;
步骤1.2, 针对步骤1.1 收集的证明材料, 挑选出符合条件的证 明材料, 并以此制作证 明
材料模板;
步骤1.3, 标记步骤1.2制作的证明材料模板是否需要加盖印章以及证明材料类别,并
对不同的类型设置不同的编码值;
步骤2: 存 储用户上传的证明材 料和证明材 料类型对应的码值;
步骤3: 计算用户上传证明材 料与步骤1配置的模板材 料相似度; 包括:
步骤3.1, 通过步骤2上传的证明材料类型, 根据用户上传的证明材料码值筛选出进行
相似度计算的模板;
步骤3.2, 通过相似度匹配算法计算出当前用户证明材料与模板的相似度, 包括如下过
程: 首先裁剪用户上传材料中的图片, 令其与模板中图片的图片大小一致; 并将裁剪后的图
片进行灰度化处理; 计算图片的直方图数据, 统计相同像素点的概率分布, 根据相关性计算
公式, 计算两个图片直方图的相似度;
步骤4: 过滤步骤3 中相似度低的证 明材料, 判断步骤3计算得到的相似度 是否超过设定
的阈值, 没有则直接判定 当前证明材料不符合要求, 直接返回结果信息; 如果等于或超过设
定的阈值则进入步骤5;
步骤5: 自动审核步骤4过滤的证明材料; 通过预先训练的改进adaboost算法识别步骤4
中超过阈值的证明材 料并提取 材料中的印章信息, 包括:
步骤5.1, 利用互联网以及系统本身采集的证明材料, 人工标注改进adaboost算法需要
的训练数据;
步骤5.2, 利用人工标注的训练数据集, 进行改进adaboost训练, 并得出训练后的分类
器作为图片审核算法;
步骤5.3, 针对步骤4的证 明材料, 采用图片审核算法给出具体的识别结果, 即当前证 明
材料是否包含印章信息, 包 含直接进入步骤6复核, 不包 含则直接则返回结果信息;
步骤6: 快速核验步骤5审核算法审核的包含印章的证明材料图是否有错误, 工复核通
过的, 则直接通过图片审核 结果模块返回结果信息给具体的业务系统; 当复核不通过的, 将
结果通知具体的业 务系统;
Step7: 通过复核层中的图片审核结果模块将结果回传至业务系统, 从而完成证明材料
的审核, 提升审核效率。
2.根据权利要求1所述的自动审核证明材料的方法, 其特征在于, 所述步骤2中通过
http api方式存 储用户上传的证明材 料。
3.根据权利要求1所述的自动审核证明材料的方法, 其特征在于, 所述步骤5中改进
adaboost算法的具体过程如下:
1、 给定训练样本集合S={(x1,y1),...,(xm,ym)}, 弱分离器空间H, 其中xi∈X, 为样本向
量, y=±1, 为类别标签, m为样本总数; 初始化样本概 率分布, D1(i)=1/m,i =1,...,m;
2、 循环迭代T次:
(1)弱分类 器空间H中的h:权 利 要 求 书 1/3 页
2
CN 115018464 A
2a.把样本空间X划分为 n等分, 即X1,X2,…,Xn
b.训练样本的概 率分布为Dt, 计算
c.弱分类 器在上述划分时的输出
其中
为一动态的正常数;
d.计算归一 化因子
(2)在弱分类 器空间中选择一个ht,使得Z最小化
(3)更新每 个训练样本的权 重使其满足概 率分布的归一 性
其中Zt为归一化因子, 使得
3、 最终的强分类 器H为
其中b为给定阈值, 默认值 为0。
4.根据权利要求1所述的自动审核证明材料的方法, 其特征在于, 所述步骤6中将审核
不通过的图片数据反馈 至训练数据集作为下次模型训练的训练样本 。
5.一种自动审核证明材料的装置, 用于实现权利要求1 ‑4中任意一项所述的自动审核
证明材料的方法, 包括: 配置层、 接入层、 过 滤层、 审核层、 复核层;
所述配置层包括模板上传模块、 模板配置模块, 模板上传模块用于上传模板, 模板配置
模块用于根据不同的模板配置不同的编码值用于区分模板类型, 并且配置相似度阈值;
所述接入层包括图片接入接口模块, 用于通过http api的方式存储用户上传的证明材
料, 并且告知当前证明材 料类型;
所述过滤层包括图片相似度计算模板、 图片过滤模块, 图片相似度计算模板用于计算
用户上传证明材料与配置层配置的模板材料相似度; 过滤模块用于过滤相似度低的证明材
料, 将相似度较高的证明材 料送入审核层;
所述审核层包括图片审核算法模块, 用于通过预先训练的改进adaboost算法识别过滤
模块过滤出的超过阈值的证明材 料并提取 材料中的印章信息;权 利 要 求 书 2/3 页
3
CN 115018464 A
3
专利 一种自动审核证明材料的方法和装置
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:30上传分享