专利 视频封面确定方法、装置、设备、存储介质及产品

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221078590 0.6 (22)申请日 2022.07.04 (71)申请人腾讯科技（北京）有限公司地址 100080 北京市海淀区海淀大街38号银科大厦16层16 01－1608室 (72)发明人徐鲁辉　熊鹏飞　高洵　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师贾允 (51)Int.Cl. G06F 16/783(2019.01) G06F 40/279(2020.01) G06F 40/30(2020.01) G06V 20/40(2022.01) G06V 20/62(2022.01)G06V 10/74(2022.01) G06V 10/774(2022.01) G06N 20/00(2019.01) (54)发明名称视频封面确定方法、装置、设备、存储介质及产品 (57)摘要本申请公开了一种视频封面确定方法、装置、设备、存储介质及产品，属于计算机技术领域。所述方法包括：获取目标视频和目标视频对应的视频文本；对视频文本进行文本含义检测处理，得到检测结果；基于检测结果和至少两个图像帧，确定目标视频对应的内容特征序列；根据内容特征序列进行视频封面预测处理，得到至少两个图像帧对应的预测数据；基于预测数据，确定目标视频对应的视频封面。本申请实施例提供的技术方案，通过对视频文本进行含义检测，得到表征文本与视频之间语义关联程度的检测结果，将其与视频的图像帧结合可以确定内容特征序列并进行封面预测，得到能够表征图像帧与视频之间内容契合程度的预测数据，从而确定与视频内容契合的封面。权利要求书2页说明书16页附图7页 CN 115129935 A 2022.09.30 CN 115129935 A 1.一种视频封面确定方法，其特征在于，所述方法包括：获取目标视频和所述目标视频对应的视频文本，所述目标视频包括至少两个图像帧；对所述视频文本进行文本含义检测处理，得到检测结果，所述检测结果表征所述视频文本与所述目标视频之间的语义关联程度；基于所述检测结果和所述至少两个图像帧，确定所述目标视频对应的内容特征序列；根据所述内容特征序列进行视频封面预测处理，得到所述至少两个图像帧对应的预测数据，所述预测数据表征所述至少两个图像帧与所述目标视频之间的内容契合程度；基于所述预测数据，确定所述目标视频对应的视频封面。 2.根据权利要求1所述的方法，其特征在于，所述对所述视频文本进行文本含义检测处理，得到检测结果，包括：将所述视频文本输入文本含义检测模型进行文本含义检测处理，得到所述视频文本对应的文本含义分；其中，所述文本含义分与所述语义关联程度呈正相关，所述检测结果包括所述文本含义分，所述文本含义检测模型是基于样本视频对应的样本视频文本和标签信息进行训练得到的机器学习模型，所述标签信息表征所述样本视频文本与所述样本视频之间的内容相关度。 3.根据权利要求2所述的方法，其特征在于，所述基于所述检测结果和所述至少两个图像帧，确定所述目标视频对应的内容特征序列，包括：在所述文本含义分大于或等于预设阈值的情况下，基于所述视频文本和所述至少两个图像帧，生成所述内容特征序列。 4.根据权利要求3所述的方法，其特征在于，所述基于所述检测结果和所述至少两个图像帧，确定所述目标视频对应的内容特征序列，还包括：在所述文本含义分小于所述预设阈值的情况下，基于所述至少两个图像帧，生成所述内容特征序列。 5.根据权利要求1所述的方法，其特征在于，所述预测数据包括所述至少两个图像帧对应的内容契合分，所述根据所述内容特征序列进行视频封面预测处理，得到所述至少两个图像帧对应的预测数据，包括：将所述内容特征序列输入封面预测模型进行视频封面预测处理，输出所述内容契合分，所述封面预测模型是基于样本视频和标签数据进行训练得到的机器学习模型，所述标签数据表征所述样本视频中的样本图像帧与所述样本视频对应的样本封面之间的对应关系；所述基于所述预测数据，确定所述目标视频对应的视频封面，包括：对所述内容契合分进行降序排序，得到排序结果；根据所述排序结果确定所述视频封面。 6.根据权利要求5所述的方法，其特征在于，所述封面预测模型的训练过程包括：获取所述样本视频和所述样本封面，所述样本视频包括样本图像帧；确定所述样本图像帧与所述样本封面之间的图像相似度；基于所述图像相似度，确定所述标签数据；根据所述样本图像帧和所述标签数据对待训练的封面预测模型进行训练，得到所述封权　利　要　求　书 1/2 页 2 CN 115129935 A 2面预测模型。 7.根据权利要求6所述的方法，其特征在于，所述根据所述样本图像帧和所述标签数据对待训练的封面预测模型进行训练，得到所述封面预测模型，包括：将所述样本图像帧输入所述待训练的封面预测模型进行视频封面预测处理，输出所述样本图像帧对应的样本预测数据；基于所述样本预测数据和所述标签数据，生成第一损失信息和第二损失信息，所述第一损失信息是以所述样本预测数据作为预测信息并以所述标签数据作为真实信息确定的交叉熵损失信息，所述第二损失信息是以所述标签数据作为预测信息并以所述样本预测数据作为真实信息确定的对称交叉熵损失信息；对所述第一损失信息和所述第二损失信息进行融合处理，得到融合损失信息；基于所述融合损失信息，对所述待训练的封面预测模型进行模型参数调整处理，得到所述封面预测模型。 8.根据权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：对所述至少两个图像帧进行图像内容检测处理，得到所述至少两个图像帧对应的图像检测结果，所述图像检测结果表征所述至少两个图像帧的图像内容质量；所述基于所述预测数据，确定所述目标视频对应的视频封面，包括：基于所述预测数据和所述图像检测结果，确定所述视频封面。 9.一种视频封面确定装置，其特征在于，所述装置包括：视频获取模块，用于获取目标视频和所述目标视频对应的视频文本，所述目标视频包括至少两个图像帧；文本检测模块，用于对所述视频文本进行文本含义检测处理，得到检测结果，所述检测结果表征所述视频文本与所述目标视频之间的语义关联程度；内容特征确定模块，用于基于所述检测结果和所述至少两个图像帧，确定所述目标视频对应的内容特征序列；封面预测模块，用于根据所述内容特征序列进行视频封面预测处理，得到所述至少两个图像帧对应的预测数据，所述预测数据表征所述至少两个图像帧与所述目标视频之间的内容契合程度；封面确定模块，用于基于所述预测数据，确定所述目标视频对应的视频封面。 10.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求 1至8任一项所述的视频封面确定方法。 11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一项所述的视频封面确定方法。 12.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行以实现如权利要求1至8任一项所述的视频封面确定方法。权　利　要　求　书 2/2 页 3 CN 115129935 A 3

专利 视频封面确定方法、装置、设备、存储介质及产品

专利视频封面确定方法、装置、设备、存储介质及产品