专利 视频合成方法、装置、计算机设备和存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210047948.7 (22)申请日 2022.01.17 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人冯鑫　 (74)专利代理机构华进联合专利商标代理有限公司 44224 代理人黄晶晶 (51)Int.Cl. H04N 5/265(2006.01) G06F 40/30(2020.01) (54)发明名称视频合成方法、装置、计算机设备和存储介质 (57)摘要本申请涉及一种视频合成方法、装置、计算机设备和存储介质。该方法涉及网络媒体领域和人工智能技术领域，包括：获取目标对象的内容描述文本信息；内容描述文本信息是对目标对象所表达的内容进行描述的文本信息；对内容描述文本信息进行语义特征提取得到文本语义特征；获取候选的视频内容特征；候选的视频内容特征是对候选的视频片段的画面内容进行语义特征提取得到的；基于文本语义特征和候选的视频内容特征之间的匹配度，确定与内容描述文本信息匹配的视频片段，得到目标视频片段；基于内容描述文本信息以及目标视频片段，合成对象视频。采用本方法能够提高处理多媒体数据的效率。权利要求书3页说明书22页附图10页 CN 114390217 A 2022.04.22 CN 114390217 A 1.一种视频合成方法，其特征在于，所述方法包括：获取目标对象的内容描述文本信息；所述内容描述文本信息是对所述目标对象所表达的内容进行描述的文本信息；对所述内容描述文本信息进行语义特征提取得到文本语义特征；获取候选的视频内容特征；所述候选的视频内容特征是对候选的视频片段的画面内容进行语义特征提取得到的；基于所述文本语义特征和所述候选的视频内容特征之间的匹配度，确定与所述内容描述文本信息相匹配的视频片段，得到目标视频片段；基于所述内容描述文本信息以及所述目标视频片段，合成所述目标对象对应的对象视频；其中，所述对象视频包括所述目标视频片段中的目标画面内容，所述对象视频中的所述目标画面内容在播放时，对应展示所述内容描述文本信息。 2.根据权利要求1所述的方法，其特征在于，所述内容描述文本信息包括多个文本信息片段；所述对所述内容描述文本信息进行语义特征提取得到文本语义特征包括：对于每个所述文本信息片段，对所述文本信息片段进行语义特征提取，得到所述文本信息片段的片段语义特征；将各个所述片段语义特征确定为所述文本语义特征。 3.根据权利要求2所述的方法，其特征在于，所述候选的视频内容特征为多个；所述基于所述文本语义特征和所述候选的视频内容特征之间的匹配度，确定与所述内容描述文本信息相匹配的视频片段，得到目标视频片段包括：分别确定每个所述片段语义特征与每个所述候选的视频内容特征之间的匹配度；基于每个所述片段语义特征与每个所述候选的视频内容特征之间的匹配度，确定与各个所述文本信息片段分别相匹配的视频片段，得到目标视频片段。 4.根据权利要求3所述的方法，其特征在于，所述目标视频片段为多个，每个所述目标视频片段匹配于一个所述文本信息片段；所述基于每个所述片段语义特征与每个所述候选的视频内容特征之间的匹配度，确定与各个所述文本信息片段分别相匹配的视频片段，得到目标视频片段包括：对于每个所述文本信息片段，确定所述文本信息片段的片段语义特征与每个所述候选的视频内容特征的匹配度；基于所述文本信息片段的片段语义特征与每个所述候选的视频内容特征的匹配度，从各个所述候选的视频内容特征中，筛选得到与所述文本信息片段的片段语义特征相匹配的视频内容特征；获取所述相匹配的视频内容特征所对应的视频片段，得到与所述文本信息片段相匹配的目标视频片段。 5.根据权利要求4所述的方法，其特征在于，所述确定所述文本信息片段的片段语义特征与每个所述候选的视频内容特征的匹配度包括：获取与所述文本信息片段相邻的文本信息片段，得到所述文本信息片段的相邻文本信息片段；计算所述相邻文本信息片段的片段语义特征与所述文本信息片段的片段语义特征之间的差异，得到特征差异信息；权　利　要　求　书 1/3 页 2 CN 114390217 A 2将所述特征差异信息与所述片段语义特征进行特征融合，得到融合语义特征；基于所述融合语义特征，确定所述文本信息片段的片段语义特征与每个所述候选的视频内容特征的匹配度。 6.根据权利要求2所述的方法，其特征在于，所述对所述文本信息片段进行语义特征提取，得到所述文本信息片段的片段语义特征包括：对所述文本信息片段进行分词处理，得到多个词片段；对于每个所述词片段，对所述词片段进行语义特征提取，得到所述词片段的词语义特征；对各个所述词片段的词语义特征进行特征融合，得到所述文本信息片段的片段语义特征。 7.根据权利要求1所述的方法，其特征在于，所述候选的视频内容特征通过如下步骤得到：对于所述候选的视频片段中的每个视频帧，对所述视频帧进行语义特征提取，得到帧语义特征；将各个所述帧语义特征进行特征融合得到所述候选的视频内容特征。 8.根据权利要求1所述的方法，其特征在于，所述目标视频片段为多个，所述内容描述文本信息包括多个文本信息片段，每个所述目标视频片段匹配于一个所述文本信息片段；所述基于所述内容描述文本信息以及所述目标视频片段，合成所述目标对象对应的对象视频包括：按照所述文本信息片段在所述内容描述文本信息中的排序，对所述文本信息片段匹配的目标视频片段依次进行拼接，并按照各所述目标视频片段的播放时间确定相匹配的所述文本信息片段的展示时间，以合成所述目标对象对应的对象视频。 9.根据权利要求1所述的方法，其特征在于，所述目标对象为目标文本对象；所述内容描述文本信息，是所述目标文本对象所描述的内容的摘要描述信息；所述对象视频，是用于对所述目标文本对象进行介绍的视频。 10.根据权利要求1所述的方法，其特征在于，所述基于所述内容描述文本信息以及所述目标视频片段，合成所述目标对象对应的对象视频；其中，所述对象视频包括所述目标视频片段中的目标画面内容，所述对象视频中的所述目标画面内容在播放时，对应展示所述内容描述文本信息包括：将所述内容描述文本信息转换为音频数据；基于所述内容描述文本信息、所述目标视频片段和所述音频数据，合成所述目标对象对应的对象视频；其中，所述对象视频的所述目标画面内容在播放时，对应展示所述内容描述文本信息以及对应播放所述音频数据。 11.根据权利要求1所述的方法，其特征在于，所述基于所述内容描述文本信息以及所述目标视频片段，合成所述目标对象对应的对象视频；其中，所述对象视频包括所述目标视频片段中的目标画面内容，所述对象视频中的所述目标画面内容在播放时，对应展示所述内容描述文本信息包括：获取候选音频，确定所述候选音频的音频风格；权　利　要　求　书 2/3 页 3 CN 114390217 A 3

专利 视频合成方法、装置、计算机设备和存储介质

专利视频合成方法、装置、计算机设备和存储介质