专利 一种基于残差网络反卷积SSD算法的家居宠物识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221079646 0.4 (22)申请日 2022.07.06 (71)申请人杭州梦视网络科技有限公司地址 311400 浙江省杭州市富阳区银湖街道九龙大道398号富春硅谷创智中心2 号楼304-004 (72)发明人林梦嫚　柯旭清　许恩泽　蒋维　孟利民　 (74)专利代理机构杭州天正专利事务所有限公司 33201 专利代理师楼明阳 (51)Int.Cl. G06V 40/10(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01)G06T 7/73(2017.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于残差网络反卷积SSD算法的家居宠物识别方法 (57)摘要一种基于残差网络反卷积SSD算法的家居宠物识别方法，包括数据集样本获取，之后将采集数据进行初步清洗，对清洗数据做标注与类别划分，并以一定比例将所有数据集分割为训练集，测试集，验证集，再以残差网络模型对于训练集数据进行迭代训练，获得目标特征图，再对目标特征图输入反卷积SSD层网络进行分析处理，获得常见家居宠物目标分类结果，最后通过NMS非最大值抑制算法保留置信度最高的结果。本发明适用于智能宠物家居，视频监控传输系统等多场景，能够在分辨率不高，场景复杂的环境下动态捕捉家居宠物位置，行为信息，及时通知在场人员进行处理，并记录宠物异常数据方便后续分析，减少人工参与程度，提高识别效率，加深人与家居宠物互动度。权利要求书3页说明书7页附图2页 CN 115131823 A 2022.09.30 CN 115131823 A 1.一种基于残差网络反卷积SSD算法的家居宠物识别方法，其特征在于：包括如下几个步骤：步骤1：收集用于训练测试验证的原始猫狗图像数据并清洗与处理，对于不符合要求的图像予以剔除；步骤2：对于清洗与处理后的待检测宠物猫狗图像数据集标注为标准PASCALVOC数据格式，并将标注完毕的数据输入基于残差网络的反卷积S SD网络中进行训练；步骤3：检测训练完毕输出的宠物猫狗SSD算法模型，取其中检测正确率最高的一个模型作为输出并通过此模型识别图像中中宠物类别，位置，行为等信息；步骤4：确认需要保存的模型后，将CKPT 文件冻结固化为PB文件。 2.根据权利要求1中所述的一种基于残差网络反卷积SSD算法的家居宠物识别方法，其特征在于：步骤1所述的收集用于训练测试验证的原始猫狗图像数据并清洗与处理包括图像的数据增强，提升分辨率，待检测宠物猫狗图像数据集标注要求格式为VOC2007，标注完毕后需要按照8∶1∶1的比例划分数据集为训练集，测试集，验证集。其中， VOC2007图像数据使用LABELXML工具以矩形识别框的形状对于待检测宠物猫狗图像区域进行框选，标注识别区域的宠物狗位置与品种，并以此为基准保存生成相应的标注框xml文件和与其对应的待处理图片。 3.根据权利要求2中所述的一种基于残差网络反卷积SSD算法的家居宠物识别方法，其特征在于：步骤2所述的待检测宠物猫狗图像数据集统一更改为三通道RGB的JPG格式图像，同时对于每类宠物图像需要1000的样本量，共有8 类常见宠物检测任务，需要分别对于拉不拉多猎犬，橘猫，美国短毛猫，泰迪犬，布偶猫，雪橇犬，柴犬，狸花猫作出判决检测，位置检测的要求。宠物猫狗图像数据集中图片像素要求为300*300，检测图片命名为00001.jpg， 00002.jpg的命名要求，图像命名序号依次递增且与标注框xml文件一一对应。待检测宠物猫狗图像数据集采用数据增强，打乱原始图片分类顺序，每一类家居宠物图片以随机顺序存放，同时对其中任意几张图片以CutMix方法拼接于一起，具体操作方式为切割某张图像部分矩形区域并拼接于另一任意图像之中，采用公式(1)与(2)运算：其中， M代表一个二值的掩盖层，对于xA底层图片， M＝1的图像区域将被保留，对于xB掩盖层图像， M＝0的图像区域将被保留， ⊙代表按图像像素相乘操作， xA与xB分别代表底层被掩盖图像与掩盖层图像， yA与yB代表与xA， xB所对应的标注宠物类别标签，与分别代表 CutMix融合后的图像与所标注的宠物类别标签类别， λ为服从贝塔分布的其中任意取值，贝塔分布中的分布参数取值均为1。关于M代表的二值掩盖层的生成公式(3)， (4)， (5)， (6)如以下所示： rx～Unif(0， W) (3) ry～Unif(0， H) (4) 其中， rx与ry分别为生成掩盖层的矩形边界框的左上角位置坐标， rw与rh为掩盖层的矩形边界框的宽与高， Unif公式为在给定区间内取一个随机值， W与H为原始图像样本的宽与权　利　要　求　书 1/3 页 2 CN 115131823 A 2高， λ 同样为服从参数取值均为1的贝塔分布中的任意取值。 4.根据权利要求1中所述的一种基于残差网络反卷积SSD算法的家居宠物识别方法，其特征在于：步骤2所述的基于残差网络的反卷积SSD网络的结构为ResNet50主干网络层，卷积层， SSD模块，反卷积模块， D SSD反卷积层； ResNet50主干网络层由两个基本Conv Block和Identit y Block共同组成，两种基本卷积块互相串联；反卷积模块对于每个卷积层后逐一添加一个BN层，在输入端以反卷积层代替一般的双线性上采样运算，模块输出时对特征层与反卷积层的输出信息以点乘方式结合； SSD模块由Co nv7、 Conv8、 Conv9、 Conv10、 Conv11卷积层组成；基于残差网络的反卷积SSD网络中先验框prior box通过SSD网络输出的特征图中每个点中心为中心生成同心prior box，而pr ior box的尺寸比例与具体尺寸大小根据公式(7)， (8)， (9)确定。其中， sk为相对于输入图像尺寸大小的比例， smin＝0.2， smax＝0.9， m为卷积网络的特征图的数量，对于S SD300等于6，对于ar，其值包括{1， 2， 3， 1/2， 1/ 3}。 5.根据权利要求1中所述的一种基于残差网络反卷积SSD算法的家居宠物识别方法，其特征在于：步骤3所述的SSD算法以大量的不同尺度与长宽比的先验框抽样检测图片，输出大量特征图谱后进行分类与回归任务，对于训练指标损失函数的判定标准为目标分类与边框回归任务的误差最小值，具体为公式(10)所示；其中，在两者加权和输出中， c为所预测的每类置信度预测值， l为先验框对应的边界框的位置预测值， g为真实标注框的位置坐标；在等式右边参数中， N代表匹配输出的先验框的数量， α代表位置损失函数与置信度损失函数两者的权重系统，在SSD检测任务中通常设置为1，具体的置信度损失函数如公式(1 1)， (12)所示；其中，置信度损失函数为匹配预测框i与真实标注框j关于类别为p的预测概率的匹配相关度的交叉熵组成。代表预测框i对应类别p的置信度，通过softmax loss损失函数计算，将神经网络最终输出值转换为区间[0， 1]之间的概率；位置损失函数代表预测框与真实标注框之间关于某一类别的匹配相关度，对于相关度的计算采用smoothL1损失函数计算， l与g分别表示先验框所对应的边界框的位置预测值与真实框的位置参数，具体如公式(13)， (14)， (15)， (16)所示：权　利　要　求　书 2/3 页 3 CN 115131823 A 3

专利 一种基于残差网络反卷积SSD算法的家居宠物识别方法

专利一种基于残差网络反卷积SSD算法的家居宠物识别方法