专利 一种面向安防监控视频的行人搜索方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210682446.1 (22)申请日 2022.06.16 (71)申请人聊城大学地址 252000 山东省聊城市东昌府区湖南路1号 (72)发明人冯德瀛　魏衍侠　肖海荣　张来刚　王政森　杨杰　 (74)专利代理机构天津麦芽知识产权代理有限公司 12269 专利代理师祝国庆 (51)Int.Cl. G06V 20/52(2022.01) G06V 20/40(2022.01) G06V 10/82(2022.01) G06V 10/74(2022.01)G06V 10/40(2022.01) G06F 16/71(2019.01) G06F 16/783(2019.01) G06N 3/04(2006.01) (54)发明名称一种面向安防监控视频的行人搜索方法 (57)摘要本发明涉及一种面向安防监控视频的行人搜索方法，包括下列步骤：步骤一，利用预先训练好的区域卷积神经网络对监控视频逐帧检测各个行人并生成对应的空间特征；步骤二，利用门控循环单元输出的隐状态对监控视频中逐帧提取到的行人空间特征进行组织，在门控循环单元的输出端增加平均池化层，对隐状态向量进行降维，并生成对应的行人时空特征；步骤三，通过局部敏感哈希对所有的行人时空特征进行索引，通过计算待搜索行人时空特征和监控视频中行人时空特征的相似度确定最终的行人搜索结果。权利要求书1页说明书5页附图1页 CN 115082854 A 2022.09.20 CN 115082854 A 1.一种面向安防监控视频的行人搜索方法，包括下列步骤：步骤一，利用预先训练好的区域卷积神经网络对监控视频逐帧检测各个行人并生成对应的空间特征；步骤二，利用门控循环单元输出的隐状态对监控视频中逐帧提取到的行人空间特征进行组织，在门控循环单元的输出端增加平均池化层，对隐状态向量进行降维，并生成对应的行人时空特征；步骤三，通过局部敏感哈希对所有的行人时空特征进行索引，通过计算待搜索行人时空特征和监控视频中行人时空特征的相似度确定最终的行人搜索结果。 2.根据权利要求1所述的行人搜索方法，其特征在于，步骤一按照下列步骤执行： 1)对于监控视频V＝{v1,v2,…,vN}，包含N帧图像，其中，第i帧图像表示为vi； 2)将监控视频V逐帧通过预先训练好的区域卷积神经网络进行处理，在第i帧图像vi中提取到的第j个行人空间特征si,j； 3)将监控视频V中的N帧图像处理完毕后，所有的行人空间特征表示为S＝{si,j}， 1≤i ≤nj,1≤j≤M，其中nj表示包含第j个行人的帧图像的数量， M表示监控视频中出现的行人总数。 3.根据权利要求1所述的行人搜索方法，其特征在于，步骤二按照下列步骤执行： 1)将第i帧图像vi中提取到的第j个行人空间特征si,j作为输入向量，输入到门控循环单元； 2)在门控循环单元中，行人空间特征si,j通过tanh激活函数更新候选隐状态向量ci,j，并且表示为： ci,j＝tanh(Wnsi,j+Un(ri,j⊙hi‑1,j)+bn)，其中hi‑1,j表示第i‑1帧图像中第 j个行人对应的隐状态向量， ri,j为hi‑1,j对应的权重， Wn、 Un和bn为门控循环单元的网络参数； 3)在门控循环单元中，根据hi‑1,j和ci,j生成第i帧图像中第j个行人对应的隐状态向量 hi,j，并且表示为： hi,j＝zi,jhi‑1,j+(1‑zi,j)ci,j， zi,j为组合hi‑1,j和ci,j的权重； 4)将第j个行人对应的空间特征在门控循环单元中全部处理完毕后，得到第j个行人对应的隐向量序列hj＝{hi,j}， 1≤i≤nj，进而视频中所有的行人表示为隐向量序列H＝{hj}， 1 ≤j≤M； 5)在门控循环单元的输出端添加平均池化层，对序列hj进行降维，生成第j个行人的时空特征pj，并且表示为所有的行人时空特征表示为P＝{pj}， 1≤j≤ M。 4.根据权利要求1所述的行人搜索方法，其特征在于，步骤三按照下列步骤执行： 1)将监控视频中所有的行人时空特征P映射到汉明向量空间，对于第j个行人的时空特征pj，映射为一个b位哈希码； 2)将待搜索行人时空特征q映射到汉明向量空间后，计算待搜索行人时空特征和视频中行人时空特征的相似度； 3)在计算出待搜索行人时空特征q和所有的行人时空特征P之间的各个相似度后，对相似度大小进行排序，排序靠前的T个时空特征所对应的行人图像，即为最终的搜索结果。权　利　要　求　书 1/1 页 2 CN 115082854 A 2一种面向安防监控视频的行人搜索方法技术领域 [0001]本发明涉及计算机视觉技术领域，具体是一种面向安防监控视频的行人搜索方法。背景技术 [0002]随着智慧城市建设进程的不断推进，越来越多的监控摄像头遍布城市的大街小巷，在老人儿童走失、犯罪嫌疑人查找定位等方面发挥着重要作用。然而，有了监控视频不等于就查找到了相关信息，由于监控摄像头数量多、录制时间长，视频数据量呈几何级增长的趋势，在海量的监控视频中查找特定的行人目标常常需要耗费大量的时间和人力物力。与此同时，由于监控摄像头安装的位置不同，监控场景也各不一样，特别是在商场、车站、会展中心等大型公共场所，人流量较为密集，造成监控场景更加复杂，给行人搜索带来更大的挑战。因此，如何在海量安防监控视频中更快捷、更准确地查找到相关的行人，成为计算机视觉技术领域关注的热点之一。 [0003]行人搜索方法将一个特定的行人目标在未知的图像或者视频数据集中进行查询，从而在数据集中找出相同的行人图像。目前大多数行人搜索方法通常在CHU K‑SYSU或PRW图像数据集上进行训练，并利用训练后的神经网络模型进行行人搜索。与CHUK ‑SYSU和PRW图像数据集相比，现实中的安防监控视频不仅包含行人的空间特征，而且涉及行人的时间相关性。因此，在CHUK ‑SYSU和PRW图像数据集上训练的行人搜索方法，由于没有考虑到行人的时间相关性，在应用于安防监控视频时，其稳健性和可靠性还需要进一步提高。 [0004]经对现有技术的文献检索发现，专利CN 112241682A提供了一种基于分块以及多层信息融合的端到端行人搜索方法。该方法使用卷积神经网络提出初步特征，并使用候选区域提取网络提取行人所在的区域，从而得到高层特征图谱。通过将高层特征分块并将其与中层特征融合，提高行人搜索的准确率。虽然该方法采用监控摄像头拍摄的整幅图像作为输入数据，但是没有考虑前后帧图像中行人的时间相关性，在应用于安防监控视频时具有一定的局限性。 [0005]进一步检索发现，专利CN 109165540A提供了一种基于先验候选框选择策略的行人搜索方法。该方法根据训练集中所有行人边框的长和宽构建行人候选框向量，进而通过 K‑means++聚类算法得到先验候选框并识别出行人的身份，最后通过训练好的行人搜索网络确定行人在监控图像中的位置。该方法同样只针对单幅图像中的行人特征进行处理，没有涉及监控视频多帧图像中行人之间的时间相关性。发明内容 [0006]本发明针对现有技术存在的上述不足，提供了一种面向安防监控视频的行人搜索方法。根据安防监控视频具有空间不变性和时间连续性的特点，通过在监控视频中生成行人的时空特征，充分利用行人在视频前后帧的时间相关性，提高了行人搜索准确率。通过对监控视频中所有的行人时空特征进行组织，保证了行人搜索的实时性。说　明　书 1/5 页 3 CN 115082854 A 3

专利 一种面向安防监控视频的行人搜索方法

专利一种面向安防监控视频的行人搜索方法