(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210797593.3
(22)申请日 2022.07.06
(71)申请人 中通服咨询设计 研究院有限公司
地址 210019 江苏省南京市 建邺区楠溪江
东街58号
(72)发明人 邓曦 王昕岩 张洪良 陈建
于伟涛 陈雪勇 童春
(74)专利代理 机构 江苏圣典律师事务所 32 237
专利代理师 于瀚文 胡建华
(51)Int.Cl.
G06V 40/16(2022.01)
G06V 20/40(2022.01)
G06V 10/82(2022.01)
G06V 10/774(2022.01)
G06V 10/764(2022.01)G06V 10/74(2022.01)
G06V 10/22(2022.01)
G06T 7/277(2017.01)
G06N 3/08(2006.01)
G06N 3/04(2006.01)
(54)发明名称
一种基于人脸图像的 口罩检测方法和系统
(57)摘要
本发明提供了一种基于人脸图像的口罩检
测方法和系统, 所述方法包括: 步骤1: 对摄像头
的实时视频流或者本地视频文件进行图像截取,
通过标注的方式制作数据集, 将Yolov5m模型作
为图像检测器; 步骤2: 通过MobileNet检测器选
取拍摄角度最好的一张人脸图像 保存至本地; 步
骤3: 构建SE_ResNet18的改进模型M_NET, 对 步骤
2保存的人脸图像进行学习训练; 步骤4: 对人脸
抓拍模块保存的人脸图像进行检测。 本发明提高
了人脸抓拍精度, 分类网络能够专注于口罩检
测, 有利于提升口罩检测精度。 在流程上, 将人脸
抓拍与口罩检测进行了解耦, 使得流程更加灵
活。
权利要求书3页 说明书6页 附图7页
CN 115240248 A
2022.10.25
CN 115240248 A
1.一种基于人脸图像的 口罩检测方法, 其特 征在于, 包括以下步骤:
步骤1: 对摄像头的实时视频流或者本地视频文件进行图像截取, 通过标注的方式制作
数据集, 并把数据集划分为训练集与验证集, 将Yolov5m模型作为图像检测器, 使用训练集
数据进行训练直到Yolov5m模型收敛, 再通过验证集数据来检验Yolov5m模 型的目标检测性
能, 并对超参数进行调优;
步骤2: 对于摄像头实时视频流或者本地视频文件, 对视频流或视频文件中进出边界的
每个人, 通过Mobi leNet检测器选取拍摄角度最 好的一张人脸图像保存至 本地;
步骤3: 构建SE_ResNet18的改进模型M_NET, 对步骤2保存的人脸图像进行学习训练, 直
到M_NET模型能够对所有的训练集数据是否正确佩戴口罩进行判定;
步骤4: 使用训练完成的M_NET模型, 对人脸抓拍模块通过摄像头实时视频流或者本地
视频文件保存的人脸图像进行检测, 判断是否正确佩戴口罩。
2.根据权利要求1所述的方法, 其特 征在于, 步骤2包括:
步骤2.1: 读取视频流数据或者视频文件数据, 将视频的每一帧图像数据输入到训练好
的图像检测器中, 得到图像中所有人脸的检测框;
步骤2.2: 通过匈牙利算法将检测框和卡尔曼滤波预测的预测框进行IOU匹配, 预测框
与检测框之间会产生 三种结果, 分别是: 预测框未匹配, 检测框未匹配, 匹配;
步骤2.3: 当摄像头实时视频流或者本地视频文件中的人员走出边界后, 即分配ID的边
界框不再出现在视频中时, 停止对所述ID的边界框进行跟踪, 并对截取的所有人脸图像进
行判断, 将其中拍摄角度最 好的一张图像保存至 本地。
3.根据权利要求2所述的方法, 其特 征在于, 步骤2.2包括:
步骤2.2.1: 如果结果是检测框未匹配, 表示跟上一帧的检测框相比, 当前帧的检测框
新增了目标人脸, 预测框不存在所述新增的目标人脸, 此时会对检测框 分配一个新的ID号,
表示新增的目标人脸在视频中第一次出现, 并将 检测框信息送入卡尔曼滤波进行下一时刻
的预测;
步骤2.2.2: 如果结果是匹配, 表示所有 的预测框与检测框都能一一对应, 此时会更新
边界框的状态值, 并送入卡尔曼滤波进行下一时刻的预测; 每经过视频时间1s将此时检测
框对应的人脸图添加到该ID对应的人脸图列表, 并将该ID以及 对应的人脸图列表以字典形
式进行保存;
步骤2.2.3: 如果结果是预测框未匹配, 表示目标人脸走出边界从检测框中消 失, 此时
会从人脸图字典中取出预测框对应ID的所有人脸图, 通过MobileNet检测器选取拍摄角度
最好的一张保存至 本机, 并删除对相应ID的人脸预测。
4.根据权利要求3所述的方法, 其特 征在于, 步骤3包括:
步骤3.1: 通过对现有的SE_ResNet18模型进行改进, 构建口罩检测模型M_NET, 所述M_
NET模型包括卷积层, BN层, ReLU层, 最大池化层, 平均池化层, 全连接层以及
MNetBasicBlock模块; 其中MNetBasicBlock模块包括卷积层, BN层, 最大池化层, 以及SE模
块; SE模块包括平均池化层, 压缩层和激励 层;
步骤3.2: 通过人脸抓拍模块收集实际场景人脸图, 对人员是否佩戴口罩进行分类, 并
将人脸图数据划分为训练集与验证集;
步骤3.3: 将训练集的图像数据通过预处理操作后, 输入到M_NET模型中进行训练直到权 利 要 求 书 1/3 页
2
CN 115240248 A
2模型收敛, 再通过验证集 来检验模型的目标检测性能, 并对 超参数进行调优。
5.根据权利 要求4所述的方法, 其特征在于, 步骤3.1中, 所述M_NET模型对现有模型SE_
ResNet18的主干进行改进, 将原有的64个7*7的卷积核, 改为32个5*5的卷积核与32 个7*7的
卷积核。
6.根据权利要求5所述的方法, 其特征在于, 步骤3.1中, 所述M_NET模型对SE_ResNet18
中SEBasicBlock模块中的downsample模块进行改进, 将原有卷积核的步长从2改为1, 同时
增加了一个最大池化层。
7.根据权利要求6所述的方法, 其特征在于, 步骤3.1中, 卷积层输出的特征的尺寸V如
下所示:
其中W为输入特征的宽度, K为卷积核的宽度, P为填充数量, S为卷积核的移动步长,
floor()为向下 取整操作, 例如fl oor(57.5)=57,fl oor(99.8)=99;
ReLU层包括激活函数, 用于对输入特 征进行线性整流计算, 如下 所示:
f(x)=max(0,x)
其中x为输入特 征, f(x)为ReLU层的输出 特征, max表示取最大值;
BN层用于对卷积层输出的特 征进行标准化处理, 计算如下 所示:
其中x为输入特 征, μ为输入特 征的均值, σ2为输入特 征的方差, f(x)为BN层的输出 特征;
在SE模块中, 平均池化层对每 个通道的特 征信息进行平均池化, 计算如下 所示:
其中H表示输入特征 的高度, uc表示输入特征x在通道c的特征, pc为SE模块中平均池化
层的输出 特征;
压缩层用于获得输入特 征每个通道的全局信息, 计算如下 所示:
zc=ReLU(W1pc)
其中, zc表示经过压缩层后的输出特征,
为压缩层的全连接权值矩阵;
表示矩阵的长 宽分别为c /r, c;
激励层用于学习得到 输入特征每个通道的特 征权值, 计算公式如下 所示:
sc=σ(W2ReLU(zc)
其中σ 表示sigmoid激活函数,
为激励层的全连接权值矩阵, r为中间层的隐
层节点数;
最后将输入特 征在通道c上的特 征uc与sc进行点积运 算, 结果为
计算公式如下:
8.根据权利要求7 所述的方法, 其特 征在于, 步骤4包括:
步骤4.1: 对人脸抓拍模块新保存的人脸图像进行预处理操作, 将输入图片的尺寸缩放权 利 要 求 书 2/3 页
3
CN 115240248 A
3
专利 一种基于人脸图像的口罩检测方法和系统
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:13上传分享