standard library
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210898995.2 (22)申请日 2022.07.28 (71)申请人 新壹 (北京) 科技有限公司 地址 100028 北京市朝阳区曙光西里甲5号 院18号楼-2至17层101号1 1层1108号 (72)发明人 张华伟 李璋  (74)专利代理 机构 北京市盛峰律师事务所 11337 专利代理师 于国强 (51)Int.Cl. G06V 20/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/26(2022.01) G06V 10/74(2022.01)G06V 10/75(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称 一种基于VR设备的视频类型智能识别方法 (57)摘要 本发明公开了一种基于VR设备的视频类型 智能识别方法, 包括如下步骤, S1、 对视频文件进 行策略识别, 获取策略识别结果; S2、 对视频文件 进行模型识别, 获取模型识别结果; S3、 判断策略 识别结果和模 型识别结果是否相同, 若相同则将 策略识别结果作为最终识别结果; 若不相同, 则 将模型识别结果作为最终识别结果。 优点是: 能 够快速高效准确的识别VR视频类型, 能够方便视 频播放器快速准确地 渲染视频。 权利要求书3页 说明书8页 附图2页 CN 115240116 A 2022.10.25 CN 115240116 A 1.一种基于VR设备的视频类型智能识别方法, 其特 征在于: 包括如下步骤, S1、 对视频文件进行 策略识别, 获取 策略识别结果; S1包括, S11、 对视频文件进行预处理: 将视频文件去掉片头和片尾后截取两帧关键帧画面, 保 存为第一关键帧图片; S12、 判断第一关键帧图片是否为上下结构的视频; 若是, 则进入步骤S13; 若否, 则进入 步骤S14; S13、 依次判断第一关键帧图片是否为360度视频和180度视频, 若是360度视频, 则返回 该视频文件为360度视频上下3D, 若是180度视频, 则返回该视频文件为180度视频上下3D, 若两者都不是, 则返回该视频文件为普通视频 上下3D; S14、 判断第一关键帧图片是否为左右结构的视频; 若是, 则进入步骤S15; 若否, 则进入 步骤S16; S15、 依次判断第一关键帧图片是否为ytb视频3D、 360度视频和180度视频, 若是ytb视 频3D, 则返回该视频文件为ytb视频3D; 若是360度视频, 则返回该视频文件为360度视频左 右3D; 若是180度视频, 则返回该视频文件为180度视频左右3D, 若三者都不是, 则返回该视 频文件为普通视频左右3D; S16、 依次判断第一关键帧图片是否为ytb视频、 360度视频和180度视频, 若是ytb视频, 则返回该视频文件为ytb视频; 若是360度视频, 则返回该视频文件为360度视频; 若是180度 视频, 则返回该视频文件为180度视频; 若三 者都不是, 则返回该视频文件为普通视频; S2、 对视频文件进行模型识别, 获取模型识别结果; S2包括, S21、 对视频文件进行预处理: 将视频文件去掉片头和片尾后截取一帧关键帧画面, 保 存为第二关键帧图片; S22、 对第二关键帧图片进行 预处理; S23、 将预处理后的第二关键帧图片输入Swin  transformer模型进行图片分类, 并返回 每个类别的概 率值, 概率值最大的类别即该视频文件所属的类别; S3、 判断策略识别结果和模型识别结果是否相同, 若相同则将策略识别结果作为最终 识别结果; 若不相同, 则将模型识别结果作为 最终识别结果。 2.根据权利要求1所述的基于VR设备的视频类型智能识别方法, 其特征在于: 步骤S12 具体为, 第一关键帧图片的高度为h、 宽度为w, 从第一关键帧图片的0.5h处进行切割, 将第 一关键图片切割为两张高度为0.5h、 宽度为w的上侧图和下侧图; 采用ORB特征点匹配+均值 哈希算法对切割后获取的上侧图和下侧图进 行相似度计算, 若相似度计算结果大于上下结 构阈值, 则表示两张图相似, 判定该视频文件为上下结构, 并将切割出来的上侧图保存起 来, 并进入步骤S13; 否则, 进入步骤S14。 3.根据权利要求2所述的基于VR设备的视频类型智能识别方法, 其特征在于: 步骤S13 具体包括如下内容, S131、 截取上侧图最左边5列像素点保存为图片1、 最右边5列像素点保存为图片2, 将图 片1和图片2转为64维的2个向量, 采用余弦相似度+均值哈希算法计算这两个向量的相似 度, 若相似度大于360度视频上下3D阈值, 则表 示两张图相似, 判定该视频文件为360度视频 上下3D; 否则, 进入步骤S132; S132、 若上侧图的宽高比等于1或2, 则判定该视频文件为180度视频上下3D; 否则, 判定权 利 要 求 书 1/3 页 2 CN 115240116 A 2该视频文件为普通视频 上下3D。 4.根据权利要求3所述的基于VR设备的视频类型智能识别方法, 其特征在于: 步骤S14 具体为, 第一关键帧图片的高度为h、 宽度为w, 从第一关键帧图片的0.5w处进行切割, 将第 一关键图片切割为两张高度为h、 宽度为0.5w的左侧图和右侧图; 采用ORB特征点匹配+均值 哈希算法对切割后获取的左侧图和右侧图进 行相似度计算, 若相似度计算结果大于左右结 构阈值, 则表示两张图相似, 判定该视频文件为左右结构, 并将切割出来的左侧图保存起 来。 5.根据权利要求4所述的基于VR设备的视频类型智能识别方法, 其特征在于: 步骤S15 具体包括如下内容, S151、 将左侧图投射到一个六面立方体中, 在六面立方体相邻两个面的相接处取两列 像素, 将两列像素转为两个64 维的向量, 计算这两个向量的余弦相似度, 若余弦相似度计算 结果大于ytb视频3D阈值, 则判断该视频文件为ytb视频3D; 否则, 进入步骤S152; S152、 截取左侧图最左边5列像素点保存为图片3、 最右边5列像素点保存为图片4, 将图 片3和图片4转为64维的2个向量, 采用余弦相似度+均值哈希算法计算这两个向量的相似 度, 若相似度大于360度视频左右3D阈值, 则表 示两张图相似, 判定该视频文件为360度视频 左右3D; 否则, 进入步骤S15 3; S153、 若左侧图的宽高比等于1或2, 则判定该视频文件为180度视频左右3D; 否则, 判定 该视频文件为普通视频左右3D。 6.根据权利要求5所述的基于VR设备的视频类型智能识别方法, 其特征在于: 步骤S16 具体包括如下步骤, S161、 将第一关键帧图片投射到一个六面立方体中, 在六面立方体相邻两个面的相接 处取两列像素, 将 两列像素转为两个64 维的向量, 计算这两个向量的余弦相似度, 若余弦相 似度计算结果大于ytb视频阈值, 则判断该视频文件为ytb视频; 否则, 进入步骤S162; S162、 截取第一关键帧图片最左边5列像素点保存为图片5、 最右边5列像素点保存为图 片6, 将图片 5和图片6转为64 维的2个向量, 采用余弦相似度+均值哈希 算法计算这两个向量 的相似度, 若相似度大于360度视频阈值, 则表示两张图相似, 判定该视频文件为360度视 频; 否则, 进入步骤S16 3; S163、 若第一关键帧图片的宽高比等于1或2, 则判定该视频文件为180度视频; 否则, 判 定该视频文件为普通视频。 7.根据权利要求8所述的基于VR设备的视频类型智能识别方法, 其特征在于: ORB特征 点匹配+均值哈希算法具体为, 对分割获取的两张图提取关键点, 对两张图中提取的关键点进行对比和匹配, 计算匹 配度; 并对两张图片进行均值哈希处理, 计算汉明距离; 若计算得出的匹配度大于匹配阈 值, 且汉明距离小于距离阈值, 则表示两张图相似。 8.根据权利要求8所述的基于VR设备的视频类型智能识别方法, 其特征在于: 余弦相似 度+均值哈希算法具体为, 将三原色每个颜色的可取值范围0~255分割为4个分区, 分别为: [0~63]、 [64~127]、 [128~191]、 [191~255], 计算三原色每个颜色所在的分区, 并将这个分区值映射为0~63 中的一个整 数, 计算左右像素点对应的下标, 对每个下标对应的点数求和, 获取图片对应的权 利 要 求 书 2/3 页 3 CN 115240116 A 3

PDF文档 专利 一种基于VR设备的视频类型智能识别方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于VR设备的视频类型智能识别方法 第 1 页 专利 一种基于VR设备的视频类型智能识别方法 第 2 页 专利 一种基于VR设备的视频类型智能识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:31:53上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。