standard library
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210047948.7 (22)申请日 2022.01.17 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 冯鑫  (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 代理人 黄晶晶 (51)Int.Cl. H04N 5/265(2006.01) G06F 40/30(2020.01) (54)发明名称 视频合成方法、 装置、 计算机设备和存储介 质 (57)摘要 本申请涉及一种视频合成方法、 装置、 计算 机设备和存储介质。 该方法涉及网络媒体领域和 人工智能技术领域, 包括: 获取目标对象的内容 描述文本信息; 内容描述文本信息是对目标对象 所表达的内容进行描述的文本信息; 对内容描述 文本信息进行语义特征提取得到文本语义特征; 获取候选的视频内容特征; 候选的视频内容特征 是对候选的视频片段的画面内容进行语义特征 提取得到的; 基于文本语义特征和候选的视频内 容特征之间的匹配度, 确定与内容描述文本信息 匹配的视频片段, 得到目标视频片段; 基于内容 描述文本信息以及目标视频片段, 合成对象视 频。 采用本方法能够提高处理多媒体数据的效 率。 权利要求书3页 说明书22页 附图10页 CN 114390217 A 2022.04.22 CN 114390217 A 1.一种视频合成方法, 其特 征在于, 所述方法包括: 获取目标对象的内容描述文本信 息; 所述内容描述文本信 息是对所述目标对象所表达 的内容进行描述的文本信息; 对所述内容描述文本信息进行语义特 征提取得到文本语义特 征; 获取候选的视频内容特征; 所述候选的视频内容特征是对候选的视频片段的画面内容 进行语义特 征提取得到的; 基于所述文本语义特征和所述候选的视频内容特征之间的匹配度, 确定与 所述内容描 述文本信息相匹配的视频片段, 得到目标视频片段; 基于所述内容描述文本信 息以及所述目标视频片段, 合成所述目标对象对应的对象视 频; 其中, 所述对象视频包括所述目标视频片段中的目标画 面内容, 所述对象视频中的所述 目标画面内容在播 放时, 对应展示所述内容描述文本信息 。 2.根据权利要求1所述的方法, 其特征在于, 所述内容描述文本信 息包括多个文本信 息 片段; 所述对所述内容描述文本信息进行语义特 征提取得到文本语义特 征包括: 对于每个所述文本信息片段, 对所述文本信息片段进行语义特征提取, 得到所述文本 信息片段的片段语义特 征; 将各个所述片段语义特 征确定为所述文本语义特 征。 3.根据权利要求2所述的方法, 其特征在于, 所述候选的视频内容特征为多个; 所述基 于所述文本语义特征和所述候选的视频内容特征之 间的匹配度, 确定与所述内容描述文本 信息相匹配的视频片段, 得到目标视频片段包括: 分别确定每 个所述片段语义特 征与每个所述候选的视频内容特 征之间的匹配度; 基于每个所述片段语义特征与每个所述候选的视频内容特征之间的匹配度, 确定与 各 个所述文本信息片段分别相匹配的视频片段, 得到目标视频片段。 4.根据权利要求3所述的方法, 其特征在于, 所述目标视频片段为多个, 每个所述目标 视频片段匹配于一个所述文本信息片段; 所述基于每个所述片段语义特征与每个所述候选 的视频内容特征之间的匹配度, 确定与各个所述文本信息片段分别相匹配的视频片段, 得 到目标视频片段包括: 对于每个所述文本信 息片段, 确定所述文本信 息片段的片段语义特征与每个所述候选 的视频内容特 征的匹配度; 基于所述文本信 息片段的片段语义特征与每个所述候选的视频内容特征的匹配度, 从 各个所述候选的视频内容特征中, 筛选得到与所述文本信息片段的片段语义特征相匹配的 视频内容特 征; 获取所述相匹配的视频内容特征所对应的视频片段, 得到与 所述文本信 息片段相匹配 的目标视频片段。 5.根据权利要求4所述的方法, 其特征在于, 所述确定所述文本信 息片段的片段语义特 征与每个所述候选的视频内容特 征的匹配度包括: 获取与所述文本信 息片段相邻的文本信 息片段, 得到所述文本信 息片段的相邻文本信 息片段; 计算所述相邻文本信息片段的片段语义特征与所述文本信息片段的片段语义特征之 间的差异, 得到特 征差异信息;权 利 要 求 书 1/3 页 2 CN 114390217 A 2将所述特 征差异信息与所述片段语义特 征进行特征融合, 得到融合语义特 征; 基于所述融合语义特征, 确定所述文本信 息片段的片段语义特征与每个所述候选的视 频内容特 征的匹配度。 6.根据权利要求2所述的方法, 其特征在于, 所述对所述文本信 息片段进行语义特征提 取, 得到所述文本信息片段的片段语义特 征包括: 对所述文本信息片段进行分词处 理, 得到多个词片段; 对于每个所述词片段, 对所述词片段进行语义特征提取, 得到所述词片段的词语义特 征; 对各个所述词片段的词语义特征进行特征融合, 得到所述文本信 息片段的片段语义特 征。 7.根据权利要求1所述的方法, 其特征在于, 所述候选的视频内容特征通过如下步骤得 到: 对于所述候选的视频片段中的每个视频帧, 对所述视频帧进行语义特征提取, 得到帧 语义特征; 将各个所述帧语义特 征进行特征融合得到所述 候选的视频内容特 征。 8.根据权利要求1所述的方法, 其特征在于, 所述目标视频片段为多个, 所述内容描述 文本信息包括多个文本信息片段, 每 个所述目标视频片段匹配于一个所述文本信息片段; 所述基于所述内容描述文本信 息以及所述目标视频片段, 合成所述目标对象对应的对 象视频包括: 按照所述文本信 息片段在所述内容描述文本信 息中的排序, 对所述文本信 息片段匹配 的目标视频片段依次进行拼接, 并按照各所述目标视频片段的播放时间确定相匹配的所述 文本信息片段的展示时间, 以合成所述目标对象对应的对象视频。 9.根据权利要求1所述的方法, 其特征在于, 所述目标对象为目标文本对象; 所述内容 描述文本信息, 是所述目标文本对象所描述的内容的摘要描述信息; 所述对象视频, 是用于 对所述目标文本对象进行介绍的视频。 10.根据权利要求1所述的方法, 其特征在于, 所述基于所述内容描述文本信息以及所 述目标视频片段, 合成所述目标对象对应的对象视频; 其中, 所述对象视频包括所述目标视 频片段中的目标画面内容, 所述对 象视频中的所述 目标画面内容在播放时, 对应展示所述 内容描述文本信息包括: 将所述内容描述文本信息转换为音频 数据; 基于所述内容描述文本信息、 所述目标视频片段和所述音频数据, 合成所述目标对象 对应的对象视频; 其中, 所述对象视频的所述目标画面内容在播放时, 对应展示所述内容描述文本信息 以及对应播 放所述音频 数据。 11.根据权利要求1所述的方法, 其特征在于, 所述基于所述内容描述文本信息以及所 述目标视频片段, 合成所述目标对象对应的对象视频; 其中, 所述对象视频包括所述目标视 频片段中的目标画面内容, 所述对 象视频中的所述 目标画面内容在播放时, 对应展示所述 内容描述文本信息包括: 获取候选音频, 确定所述 候选音频的音频风格;权 利 要 求 书 2/3 页 3 CN 114390217 A 3

PDF文档 专利 视频合成方法、装置、计算机设备和存储介质

文档预览
中文文档 36 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共36页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视频合成方法、装置、计算机设备和存储介质 第 1 页 专利 视频合成方法、装置、计算机设备和存储介质 第 2 页 专利 视频合成方法、装置、计算机设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:53上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。