专利 视频生成方法、装置、计算机设备和存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210049042.9 (22)申请日 2022.01.17 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人冯鑫　 (74)专利代理机构华进联合专利商标代理有限公司 44224 代理人黄晶晶 (51)Int.Cl. H04N 5/265(2006.01) G06F 40/30(2020.01) (54)发明名称视频生成方法、装置、计算机设备和存储介质 (57)摘要本申请涉及一种视频生成方法、装置、计算机设备和存储介质。该方法涉及网络媒体领域和人工智能技术领域，包括：获取目标对象的内容描述文本，内容描述文本是对目标对象所表达的内容进行描述的信息，内容描述文本包括多个子文本，对于每个子文本，对子文本进行语义特征提取，得到子文本的文本语义特征，获取从图片库的多个候选图片中分别提取的图片内容特征，针对每个子文本，基于子文本的文本语义特征与获取的各图片内容特征之间的匹配度，从多个候选图片中确定与子文本相匹配的目标图片，结合各目标图片相匹配的子文本对各目标图片进行视频转换，生成目标对象的推荐视频。采用本方法能够提高处理多媒体数据的效率。权利要求书3页说明书24页附图10页 CN 114390218 A 2022.04.22 CN 114390218 A 1.一种视频生成方法，其特征在于，所述方法包括：获取目标对象的内容描述文本；所述内容描述文本是对所述目标对象所表达的内容进行描述的信息；所述内容描述文本包括多个子文本；对于每个所述子文本，对所述子文本进行语义特征提取，得到所述子文本的文本语义特征；获取从图片库的多个候选图片中分别提取的图片内容特征；针对每个所述子文本，基于所述子文本的文本语义特征与获取的各所述图片内容特征之间的匹配度，从所述多个候选图片中确定与所述子文本相匹配的目标图片；结合各所述目标图片相匹配的子文本对各所述目标图片进行视频转换，生成所述目标对象的推荐视频；所述推荐视频在播放时将所述目标图片和相匹配的子文本进行对应展示。 2.根据权利要求1所述的方法，其特征在于，所述结合各所述目标图片相匹配的子文本对各所述目标图片进行视频转换，生成所述目标对象的推荐视频；所述推荐视频在播放时将所述目标图片和相匹配的子文本进行对应展示包括：对于每个所述子文本，基于所述子文本相匹配的目标图片确定所述子文本对应的目标视频帧；将所述子文本叠加到对应的所述目标视频帧中，得到待编码视频帧；对各个所述待编码视频帧进行视频编码，生成所述子文本对应的视频片段；按照所述子文本在所述内容描述文本中的排序，对各个所述子文本对应的视频片段进行拼接，生成所述目标对象的推荐视频；所述推荐视频在播放时，将所述子文本与所述子文本对应的视频片段对应展示。 3.根据权利要求2所述的方法，其特征在于，所述子文本有多个相匹配的目标图片；所述对于每个所述子文本，基于所述子文本相匹配的目标图片确定所述子文本对应的目标视频帧包括：对于所述子文本相匹配的多个目标图片，按照所述多个目标图片的图片内容特征与所述子文本的文本语义特征之间的匹配度，对所述多个目标图片进行排列，得到目标图片序列；基于所述目标图片序列确定所述子文本对应的视频帧序列；所述视频帧序列中包括多个所述目标视频帧；所述将所述子文本叠加到对应的所述目标视频帧中，得到待编码视频帧包括：将所述子文本分别叠加到对应的视频帧序列中的每个目标视频帧中，得到待编码视频帧序列；所述待编码视频帧序列中包括多个所述待编码视频帧。 4.根据权利要求1所述的方法，其特征在于，所述结合各所述目标图片相匹配的子文本对各所述目标图片进行视频转换，生成所述目标对象的推荐视频；所述推荐视频在播放时将所述目标图片和相匹配的子文本进行对应展示包括：按照各所述子文本在所述内容描述文本中的排序，确定各所述子文本相匹配的目标图片分别对应的播放时间；针对每个目标图片对应的播放时间，将所述目标图片相匹配的子文本与所述播放时间之间建立对应关系；权　利　要　求　书 1/3 页 2 CN 114390218 A 2将各所述目标图片按照相应的播放时间进行视频转换，以生成所述目标对象的推荐视频；所述推荐视频在播放时，将对应于同一播放时间的所述目标图片和所述子文本进行对应展示。 5.根据权利要求1所述的方法，其特征在于，所述结合各所述目标图片相匹配的子文本对各所述目标图片进行视频转换，生成所述目标对象的推荐视频；所述推荐视频在播放时将所述目标图片和相匹配的子文本进行对应展示包括：获取目标音频；结合各所述目标图片相匹配的子文本以及所述目标音频对各所述目标图片进行视频编码，得到编码视频；将所述编码视频与所述目标音频进行合并，生成所述目标对象的推荐视频；所述推荐视频在播放时将所述目标图片和相匹配的子文本进行对应展示，并同步播放所述目标音频。 6.根据权利要求5所述的方法，其特征在于，所述获取目标音频包括：获取候选音频集合，确定所述候选音频集合中的各个候选音频的音频风格；确定所述子文本的文本风格以及所述目标图片的图片风格；基于所述音频风格与所述文本风格之间的相似度、以及所述音频风格与所述图片风格之间的相似度，从所述候选音频集合中筛选得到目标音频。 7.根据权利要求6所述的方法，其特征在于，所述获取目标音频包括：将所述内容描述文本进行语音转换，得到所述内容描述文本对应的语音数据；将所述内容描述文本对应的语音数据，确定为所述目标音频。 8.根据权利要求1所述的方法，其特征在于，所述针对每个所述子文本，基于所述子文本的文本语义特征与获取的各所述图片内容特征之间的匹配度，从所述多个候选图片中确定与所述子文本相匹配的目标图片包括：针对每个所述子文本，计算所述子文本的文本语义特征分别与每个所述图片内容特征之间的匹配度，得到所述子文本对应的各个特征匹配度；基于所述子文本对应的各个特征匹配度，从各个所述图片内容特征中过滤掉所述特征匹配度小于匹配度阈值的图片内容特征，将剩余的各个所述图片内容特征确定为第一图片内容特征；从各个所述第一图片内容特征对应的候选图片中，确定与所述子文本相匹配的目标图片。 9.根据权利要求8所述的方法，其特征在于，所述从各个所述第一图片内容特征对应的候选图片中，确定与所述子文本相匹配的目标图片包括：确定所述子文本的邻近子文本；所述子文本与所述邻近子文本在所述内容描述文本中相邻；计算所述子文本的文本语义特征与所述邻近子文本的文本语义特征之间的差异，得到特征差异信息；计算所述第一图片内容特征与所述特征差异信息之间的相似度，将相似度大于相似度阈值的所述第一图片内容特征对应的候选图片，确定为与所述子文本相匹配的目标图片。 10.根据权利要求1所述的方法，其特征在于，所述对所述子文本进行语义特征提取，得权　利　要　求　书 2/3 页 3 CN 114390218 A 3

专利 视频生成方法、装置、计算机设备和存储介质

专利视频生成方法、装置、计算机设备和存储介质