(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210898995.2
(22)申请日 2022.07.28
(71)申请人 新壹 (北京) 科技有限公司
地址 100028 北京市朝阳区曙光西里甲5号
院18号楼-2至17层101号1 1层1108号
(72)发明人 张华伟 李璋
(74)专利代理 机构 北京市盛峰律师事务所
11337
专利代理师 于国强
(51)Int.Cl.
G06V 20/40(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/26(2022.01)
G06V 10/74(2022.01)G06V 10/75(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)
(54)发明名称
一种基于VR设备的视频类型智能识别方法
(57)摘要
本发明公开了一种基于VR设备的视频类型
智能识别方法, 包括如下步骤, S1、 对视频文件进
行策略识别, 获取策略识别结果; S2、 对视频文件
进行模型识别, 获取模型识别结果; S3、 判断策略
识别结果和模 型识别结果是否相同, 若相同则将
策略识别结果作为最终识别结果; 若不相同, 则
将模型识别结果作为最终识别结果。 优点是: 能
够快速高效准确的识别VR视频类型, 能够方便视
频播放器快速准确地 渲染视频。
权利要求书3页 说明书8页 附图2页
CN 115240116 A
2022.10.25
CN 115240116 A
1.一种基于VR设备的视频类型智能识别方法, 其特 征在于: 包括如下步骤,
S1、 对视频文件进行 策略识别, 获取 策略识别结果; S1包括,
S11、 对视频文件进行预处理: 将视频文件去掉片头和片尾后截取两帧关键帧画面, 保
存为第一关键帧图片;
S12、 判断第一关键帧图片是否为上下结构的视频; 若是, 则进入步骤S13; 若否, 则进入
步骤S14;
S13、 依次判断第一关键帧图片是否为360度视频和180度视频, 若是360度视频, 则返回
该视频文件为360度视频上下3D, 若是180度视频, 则返回该视频文件为180度视频上下3D,
若两者都不是, 则返回该视频文件为普通视频 上下3D;
S14、 判断第一关键帧图片是否为左右结构的视频; 若是, 则进入步骤S15; 若否, 则进入
步骤S16;
S15、 依次判断第一关键帧图片是否为ytb视频3D、 360度视频和180度视频, 若是ytb视
频3D, 则返回该视频文件为ytb视频3D; 若是360度视频, 则返回该视频文件为360度视频左
右3D; 若是180度视频, 则返回该视频文件为180度视频左右3D, 若三者都不是, 则返回该视
频文件为普通视频左右3D;
S16、 依次判断第一关键帧图片是否为ytb视频、 360度视频和180度视频, 若是ytb视频,
则返回该视频文件为ytb视频; 若是360度视频, 则返回该视频文件为360度视频; 若是180度
视频, 则返回该视频文件为180度视频; 若三 者都不是, 则返回该视频文件为普通视频;
S2、 对视频文件进行模型识别, 获取模型识别结果; S2包括,
S21、 对视频文件进行预处理: 将视频文件去掉片头和片尾后截取一帧关键帧画面, 保
存为第二关键帧图片;
S22、 对第二关键帧图片进行 预处理;
S23、 将预处理后的第二关键帧图片输入Swin transformer模型进行图片分类, 并返回
每个类别的概 率值, 概率值最大的类别即该视频文件所属的类别;
S3、 判断策略识别结果和模型识别结果是否相同, 若相同则将策略识别结果作为最终
识别结果; 若不相同, 则将模型识别结果作为 最终识别结果。
2.根据权利要求1所述的基于VR设备的视频类型智能识别方法, 其特征在于: 步骤S12
具体为, 第一关键帧图片的高度为h、 宽度为w, 从第一关键帧图片的0.5h处进行切割, 将第
一关键图片切割为两张高度为0.5h、 宽度为w的上侧图和下侧图; 采用ORB特征点匹配+均值
哈希算法对切割后获取的上侧图和下侧图进 行相似度计算, 若相似度计算结果大于上下结
构阈值, 则表示两张图相似, 判定该视频文件为上下结构, 并将切割出来的上侧图保存起
来, 并进入步骤S13; 否则, 进入步骤S14。
3.根据权利要求2所述的基于VR设备的视频类型智能识别方法, 其特征在于: 步骤S13
具体包括如下内容,
S131、 截取上侧图最左边5列像素点保存为图片1、 最右边5列像素点保存为图片2, 将图
片1和图片2转为64维的2个向量, 采用余弦相似度+均值哈希算法计算这两个向量的相似
度, 若相似度大于360度视频上下3D阈值, 则表 示两张图相似, 判定该视频文件为360度视频
上下3D; 否则, 进入步骤S132;
S132、 若上侧图的宽高比等于1或2, 则判定该视频文件为180度视频上下3D; 否则, 判定权 利 要 求 书 1/3 页
2
CN 115240116 A
2该视频文件为普通视频 上下3D。
4.根据权利要求3所述的基于VR设备的视频类型智能识别方法, 其特征在于: 步骤S14
具体为, 第一关键帧图片的高度为h、 宽度为w, 从第一关键帧图片的0.5w处进行切割, 将第
一关键图片切割为两张高度为h、 宽度为0.5w的左侧图和右侧图; 采用ORB特征点匹配+均值
哈希算法对切割后获取的左侧图和右侧图进 行相似度计算, 若相似度计算结果大于左右结
构阈值, 则表示两张图相似, 判定该视频文件为左右结构, 并将切割出来的左侧图保存起
来。
5.根据权利要求4所述的基于VR设备的视频类型智能识别方法, 其特征在于: 步骤S15
具体包括如下内容,
S151、 将左侧图投射到一个六面立方体中, 在六面立方体相邻两个面的相接处取两列
像素, 将两列像素转为两个64 维的向量, 计算这两个向量的余弦相似度, 若余弦相似度计算
结果大于ytb视频3D阈值, 则判断该视频文件为ytb视频3D; 否则, 进入步骤S152;
S152、 截取左侧图最左边5列像素点保存为图片3、 最右边5列像素点保存为图片4, 将图
片3和图片4转为64维的2个向量, 采用余弦相似度+均值哈希算法计算这两个向量的相似
度, 若相似度大于360度视频左右3D阈值, 则表 示两张图相似, 判定该视频文件为360度视频
左右3D; 否则, 进入步骤S15 3;
S153、 若左侧图的宽高比等于1或2, 则判定该视频文件为180度视频左右3D; 否则, 判定
该视频文件为普通视频左右3D。
6.根据权利要求5所述的基于VR设备的视频类型智能识别方法, 其特征在于: 步骤S16
具体包括如下步骤,
S161、 将第一关键帧图片投射到一个六面立方体中, 在六面立方体相邻两个面的相接
处取两列像素, 将 两列像素转为两个64 维的向量, 计算这两个向量的余弦相似度, 若余弦相
似度计算结果大于ytb视频阈值, 则判断该视频文件为ytb视频; 否则, 进入步骤S162;
S162、 截取第一关键帧图片最左边5列像素点保存为图片5、 最右边5列像素点保存为图
片6, 将图片 5和图片6转为64 维的2个向量, 采用余弦相似度+均值哈希 算法计算这两个向量
的相似度, 若相似度大于360度视频阈值, 则表示两张图相似, 判定该视频文件为360度视
频; 否则, 进入步骤S16 3;
S163、 若第一关键帧图片的宽高比等于1或2, 则判定该视频文件为180度视频; 否则, 判
定该视频文件为普通视频。
7.根据权利要求8所述的基于VR设备的视频类型智能识别方法, 其特征在于: ORB特征
点匹配+均值哈希算法具体为,
对分割获取的两张图提取关键点, 对两张图中提取的关键点进行对比和匹配, 计算匹
配度; 并对两张图片进行均值哈希处理, 计算汉明距离; 若计算得出的匹配度大于匹配阈
值, 且汉明距离小于距离阈值, 则表示两张图相似。
8.根据权利要求8所述的基于VR设备的视频类型智能识别方法, 其特征在于: 余弦相似
度+均值哈希算法具体为,
将三原色每个颜色的可取值范围0~255分割为4个分区, 分别为: [0~63]、 [64~127]、
[128~191]、 [191~255], 计算三原色每个颜色所在的分区, 并将这个分区值映射为0~63
中的一个整 数, 计算左右像素点对应的下标, 对每个下标对应的点数求和, 获取图片对应的权 利 要 求 书 2/3 页
3
CN 115240116 A
3
专利 一种基于VR设备的视频类型智能识别方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:31:53上传分享