(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210685000.4
(22)申请日 2022.06.15
(71)申请人 天津市国瑞数码安全系统股份有限
公司
地址 300392 天津市西青区华苑产业区海
泰绿色产业基地K1-1- 601室
(72)发明人 吴冠标 孙涛 陈涛
(74)专利代理 机构 北京秉文同创知识产权代理
事务所(普通 合伙) 11859
专利代理师 陈少丽 孙富利
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 20/70(2022.01)
G06N 3/04(2006.01)
G06V 10/82(2022.01)G06V 10/764(2022.01)
G06V 10/762(2022.01)
G06V 10/74(2022.01)
G06V 10/46(2022.01)
G06F 17/18(2006.01)
G06F 17/16(2006.01)
(54)发明名称
一种改进的场景内容检测的方法和系统
(57)摘要
本发明提供一种改进的场景内容检测的方
法和系统, 通过提取多媒体数据中的多种特征,
将多种特征按不同维度输入神经网络模型, 得到
经过机器学习后的高维度向量矩阵, 再经由状态
链模型, 得到显性特征分布区域, 进而确定出需
要的语义特征集合, 最后确定出不同场景划分的
分界线, 实现精确地分段内容检测, 并且减少了
运算量。
权利要求书1页 说明书4页 附图1页
CN 115019234 A
2022.09.06
CN 115019234 A
1.一种改进的场景内容检测的方法, 其特 征在于, 所述方法包括:
接收采集终端发送的多媒体数据, 从中提取出视觉特征、 声音特征和文本特征, 将所述
视觉特征、 声音特征和文本特征列入第一向量矩阵的三个维度, 将所述第一向量矩阵送入
神经网络模型的输入端;
其中, 所述神经网络模型具有三个输入端, 三个输入端分别接入对应的中间层, 经过运
算处理后, 连接到三个缓冲区, 其中一个中间层包括一个全态连接单元, 所述全态连接单元
会将中间层的结果反馈给其余两个缓冲区, 所述其余两个缓冲区根据反馈修正数据, 所述
三个缓冲区输出 经过加权求和后得到一个输出端;
所述神经网络模型对所述第 一向量矩阵进行运算, 剔除单个维度偏差大于预设阈值的
特征值, 得到 机器学习后的第二高维度向量矩阵;
将所述第二高维度向量矩阵输入到状态链模型, 根据预设的概率密度函数, 确定所述
多媒体数据对应的显性特征分布 区域, 得出可能的隐性特征分布 区域, 提取所述可能的隐
性特征分布区域中的多个第三向量矩阵, 分解所述第三向量矩阵得到隐性特 征;
语义分析上述 隐性特征, 得到多个待定语义特征, 并计算所述多个待定语义特征之间
的相关度, 去除其中相关度低于阈值的待定语义特征, 确定所述多媒体数据对应的语义特
征集合;
将所述第二高维度向量矩阵和所述语义特征集合输入计算函数, 同时引入状态链模型
的概率密度参数, 得到所述第三向量矩阵到所述第二高维度向量矩阵的条件概率公式, 经
由神经网络模型计算该 条件概率公式, 计算得到最优的第三向量矩阵;
根据所述最优的第三向量矩阵之间的分布情况, 确定不同场景划分的分界线, 根据所
述分界线将多媒体数据划分为不同的场景段, 依 次进行语义分析, 得到对应不同场景段 的
语义标签;
根据所述语义标签, 调用不同的内容检测算法, 对所述语义标签对应的场景段进行内
容检测。
2.根据权利要求1所述的方法, 其特征在于: 所述语义分析还包括聚类操作, 对 同一类
的场景段集中分析。
3.根据权利要求2所述的方法, 其特征在于: 所述接收采集终端发送的多媒体数据流包
括对所述多媒体数据流的编解码。
4.根据权利要求3所述的方法, 其特 征在于: 所述语义分析采用神经网络模型。
5.一种改进的场景内容检测的系统, 其特 征在于, 所述系统包括处 理器以及存 储器:
所述存储器用于存 储程序代码, 并将所述 程序代码传输给 所述处理器;
所述处理器用于根据所述程序代码中的指令执行实现权利要求1 ‑4任一项所述的方
法。
6.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质用于存储程序代
码, 所述程序代码用于执 行实现权利要求1 ‑4任一项所述的方法。权 利 要 求 书 1/1 页
2
CN 115019234 A
2一种改进的场景内容检测的方 法和系统
技术领域
[0001]本申请涉及网络多媒体领域, 尤其涉及一种改进的场景内容检测的方法和系统。
背景技术
[0002]现有网络中存在大量场景信息、 非常丰富的视频数据, 一段视频中常常剪辑有多
个完全不同的场景, 针对不同的场景调用不同的内容检测算法, 会极大地增加运算量。 即使
能够划分出精确的场景分界线, 其内容检测的运 算量还是不小, 给系统带来很大的负担 。
[0003]因此, 急需一种针对性的改进的场景内容检测的的方法和系统。 在给出精确场景
分界线的情况 下, 进一步改进内容检测算法。
发明内容
[0004]本发明的目的在于提供一种改进的场景内容检测的方法和系统, 通过提取多媒体
数据中的多种 特征, 将多种 特征按不同维度输入神经网络模型, 得到经过机器学习后的高
维度向量矩阵, 再经由状态链模 型, 得到显性特征分布区域, 进而确定出需要的 隐性特征分
布区域的语义特 征集合, 最后确定出不同场景划分的分界线, 实现精确地分段内容检测。
[0005]第一方面, 本申请提供一种改进的场景内容检测的方法, 所述方法包括:
[0006]接收采集终端发送的多媒体数据, 从中提取出视觉特征、 声音特征和文本特征, 将
所述视觉特征、 声音特征和文本特征列入第一向量矩阵的三个维度, 将所述第一向量矩阵
送入神经网络模型的输入端;
[0007]其中, 所述神经网络模型具有三个输入端, 三个输入端 分别接入对应的中间层, 经
过运算处理后, 连接到三个缓冲区, 其中一个中间层 包括一个全态连接单元, 所述全态连接
单元会将中间层的结果反馈给其余两个缓冲区, 所述其余两个缓冲区根据反馈修正数据,
所述三个缓冲区输出 经过加权求和后得到一个输出端;
[0008]所述神经网络模型对所述第一向量矩阵进行运算, 剔除单个维度偏差大于预设阈
值的特征值, 得到 机器学习后的第二高维度向量矩阵;
[0009]将所述第二高维度向量矩阵输入到状态链模型, 根据预设的概率密度函数, 确定
所述多媒体数据对应的显性特征分布 区域, 得出可能的隐性特征分布 区域, 提取所述可能
的隐性特 征分布区域中的多个第三向量矩阵, 分解所述第三向量矩阵得到隐性特 征;
[0010]语义分析上述隐性特征, 得到多个待定语义特征, 并计算所述多个待定语义特征
之间的相关度, 去除其中相关度低于阈值的待定语义特征, 确定所述多媒体数据对应的语
义特征集合;
[0011]将所述第二高维度向量矩阵和所述语义特征集合输入计算函数, 同时引入状态链
模型的概率密度参数, 得到所述第三向量矩阵到所述第二高维度向量矩阵的条件概率公
式, 经由神经网络模型计算该 条件概率公式, 计算得到最优的第三向量矩阵;
[0012]根据所述最优的第三向量矩阵之间的分布情况, 确定不 同场景划分的分界线, 根
据所述分界线将多媒体数据划分为不同的场景段, 依 次进行语义分析, 得到对应不同场景说 明 书 1/4 页
3
CN 115019234 A
3
专利 一种改进的场景内容检测的方法和系统
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:32:35上传分享