专利 一种基于VR设备的视频类型智能识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210898995.2 (22)申请日 2022.07.28 (71)申请人新壹（北京）科技有限公司地址 100028 北京市朝阳区曙光西里甲5号院18号楼-2至17层101号1 1层1108号 (72)发明人张华伟　李璋　 (74)专利代理机构北京市盛峰律师事务所 11337 专利代理师于国强 (51)Int.Cl. G06V 20/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/26(2022.01) G06V 10/74(2022.01)G06V 10/75(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称一种基于VR设备的视频类型智能识别方法 (57)摘要本发明公开了一种基于VR设备的视频类型智能识别方法，包括如下步骤， S1、对视频文件进行策略识别，获取策略识别结果； S2、对视频文件进行模型识别，获取模型识别结果； S3、判断策略识别结果和模型识别结果是否相同，若相同则将策略识别结果作为最终识别结果；若不相同，则将模型识别结果作为最终识别结果。优点是：能够快速高效准确的识别VR视频类型，能够方便视频播放器快速准确地渲染视频。权利要求书3页说明书8页附图2页 CN 115240116 A 2022.10.25 CN 115240116 A 1.一种基于VR设备的视频类型智能识别方法，其特征在于：包括如下步骤， S1、对视频文件进行策略识别，获取策略识别结果； S1包括， S11、对视频文件进行预处理：将视频文件去掉片头和片尾后截取两帧关键帧画面，保存为第一关键帧图片； S12、判断第一关键帧图片是否为上下结构的视频；若是，则进入步骤S13；若否，则进入步骤S14； S13、依次判断第一关键帧图片是否为360度视频和180度视频，若是360度视频，则返回该视频文件为360度视频上下3D，若是180度视频，则返回该视频文件为180度视频上下3D，若两者都不是，则返回该视频文件为普通视频上下3D； S14、判断第一关键帧图片是否为左右结构的视频；若是，则进入步骤S15；若否，则进入步骤S16； S15、依次判断第一关键帧图片是否为ytb视频3D、 360度视频和180度视频，若是ytb视频3D，则返回该视频文件为ytb视频3D；若是360度视频，则返回该视频文件为360度视频左右3D；若是180度视频，则返回该视频文件为180度视频左右3D，若三者都不是，则返回该视频文件为普通视频左右3D； S16、依次判断第一关键帧图片是否为ytb视频、 360度视频和180度视频，若是ytb视频，则返回该视频文件为ytb视频；若是360度视频，则返回该视频文件为360度视频；若是180度视频，则返回该视频文件为180度视频；若三者都不是，则返回该视频文件为普通视频； S2、对视频文件进行模型识别，获取模型识别结果； S2包括， S21、对视频文件进行预处理：将视频文件去掉片头和片尾后截取一帧关键帧画面，保存为第二关键帧图片； S22、对第二关键帧图片进行预处理； S23、将预处理后的第二关键帧图片输入Swin transformer模型进行图片分类，并返回每个类别的概率值，概率值最大的类别即该视频文件所属的类别； S3、判断策略识别结果和模型识别结果是否相同，若相同则将策略识别结果作为最终识别结果；若不相同，则将模型识别结果作为最终识别结果。 2.根据权利要求1所述的基于VR设备的视频类型智能识别方法，其特征在于：步骤S12 具体为，第一关键帧图片的高度为h、宽度为w，从第一关键帧图片的0.5h处进行切割，将第一关键图片切割为两张高度为0.5h、宽度为w的上侧图和下侧图；采用ORB特征点匹配+均值哈希算法对切割后获取的上侧图和下侧图进行相似度计算，若相似度计算结果大于上下结构阈值，则表示两张图相似，判定该视频文件为上下结构，并将切割出来的上侧图保存起来，并进入步骤S13；否则，进入步骤S14。 3.根据权利要求2所述的基于VR设备的视频类型智能识别方法，其特征在于：步骤S13 具体包括如下内容， S131、截取上侧图最左边5列像素点保存为图片1、最右边5列像素点保存为图片2，将图片1和图片2转为64维的2个向量，采用余弦相似度+均值哈希算法计算这两个向量的相似度，若相似度大于360度视频上下3D阈值，则表示两张图相似，判定该视频文件为360度视频上下3D；否则，进入步骤S132； S132、若上侧图的宽高比等于1或2，则判定该视频文件为180度视频上下3D；否则，判定权　利　要　求　书 1/3 页 2 CN 115240116 A 2该视频文件为普通视频上下3D。 4.根据权利要求3所述的基于VR设备的视频类型智能识别方法，其特征在于：步骤S14 具体为，第一关键帧图片的高度为h、宽度为w，从第一关键帧图片的0.5w处进行切割，将第一关键图片切割为两张高度为h、宽度为0.5w的左侧图和右侧图；采用ORB特征点匹配+均值哈希算法对切割后获取的左侧图和右侧图进行相似度计算，若相似度计算结果大于左右结构阈值，则表示两张图相似，判定该视频文件为左右结构，并将切割出来的左侧图保存起来。 5.根据权利要求4所述的基于VR设备的视频类型智能识别方法，其特征在于：步骤S15 具体包括如下内容， S151、将左侧图投射到一个六面立方体中，在六面立方体相邻两个面的相接处取两列像素，将两列像素转为两个64 维的向量，计算这两个向量的余弦相似度，若余弦相似度计算结果大于ytb视频3D阈值，则判断该视频文件为ytb视频3D；否则，进入步骤S152； S152、截取左侧图最左边5列像素点保存为图片3、最右边5列像素点保存为图片4，将图片3和图片4转为64维的2个向量，采用余弦相似度+均值哈希算法计算这两个向量的相似度，若相似度大于360度视频左右3D阈值，则表示两张图相似，判定该视频文件为360度视频左右3D；否则，进入步骤S15 3； S153、若左侧图的宽高比等于1或2，则判定该视频文件为180度视频左右3D；否则，判定该视频文件为普通视频左右3D。 6.根据权利要求5所述的基于VR设备的视频类型智能识别方法，其特征在于：步骤S16 具体包括如下步骤， S161、将第一关键帧图片投射到一个六面立方体中，在六面立方体相邻两个面的相接处取两列像素，将两列像素转为两个64 维的向量，计算这两个向量的余弦相似度，若余弦相似度计算结果大于ytb视频阈值，则判断该视频文件为ytb视频；否则，进入步骤S162； S162、截取第一关键帧图片最左边5列像素点保存为图片5、最右边5列像素点保存为图片6，将图片 5和图片6转为64 维的2个向量，采用余弦相似度+均值哈希算法计算这两个向量的相似度，若相似度大于360度视频阈值，则表示两张图相似，判定该视频文件为360度视频；否则，进入步骤S16 3； S163、若第一关键帧图片的宽高比等于1或2，则判定该视频文件为180度视频；否则，判定该视频文件为普通视频。 7.根据权利要求8所述的基于VR设备的视频类型智能识别方法，其特征在于： ORB特征点匹配+均值哈希算法具体为，对分割获取的两张图提取关键点，对两张图中提取的关键点进行对比和匹配，计算匹配度；并对两张图片进行均值哈希处理，计算汉明距离；若计算得出的匹配度大于匹配阈值，且汉明距离小于距离阈值，则表示两张图相似。 8.根据权利要求8所述的基于VR设备的视频类型智能识别方法，其特征在于：余弦相似度+均值哈希算法具体为，将三原色每个颜色的可取值范围0～255分割为4个分区，分别为： [0～63]、 [64～127]、 [128～191]、 [191～255]，计算三原色每个颜色所在的分区，并将这个分区值映射为0～63 中的一个整数，计算左右像素点对应的下标，对每个下标对应的点数求和，获取图片对应的权　利　要　求　书 2/3 页 3 CN 115240116 A 3

专利 一种基于VR设备的视频类型智能识别方法

专利一种基于VR设备的视频类型智能识别方法