专利 视频标题生成方法、装置、电子设备及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210023596.1 (22)申请日 2022.01.10 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人魏承东　丁杰超　高睿　 (74)专利代理机构北京易光知识产权代理有限公司 11596 代理人武晨燕 (51)Int.Cl. G06F 40/258(2020.01) G06F 40/30(2020.01) G06F 40/242(2020.01) G06F 40/289(2020.01) G06F 40/216(2020.01)G06F 16/783(2019.01) (54)发明名称视频标题生成方法、装置、电子设备及存储介质 (57)摘要本公开提供了一种视频标题生成方法、装置、电子设备及存储介质。本公开涉及视频技术领域，尤其涉及短视频技术领域。具体实现方式为：获取针对第一视频文件的多个可选文本信息；从所述多个可选文本信息中确定中心文本信息，所述中心文本信息为与所述第一视频文件的内容的相似度最高的可选文本信息；将所述中心文本信息确定为所述第一视频文件的标题。本公开能够根据用户对原始视频文件的互动行为数据确定原始视频文件中的兴趣点，并以兴趣点为基准对原始视频文件进行裁剪，得到多个裁剪后的视频文件，即短视频。本公开能够提高生成视频文件标题的效果和效率。权利要求书3页说明书11页附图4页 CN 114357989 A 2022.04.15 CN 114357989 A 1.一种视频标题生成方法，包括：获取针对第一视频文件的多个可选文本信息；从所述多个可选文本信息中确定中心文本信息，所述中心文本信息为与所述第一视频文件的内容的相似度最高的可选文本信息；将所述中心文本信息确定为所述第一视频文件的标题。 2.根据权利要求1所述的方法，其中，所述可选文本信息包括所述第一视频文件的弹幕文本、评论、字幕和介绍文本中的至少一项。 3.根据权利要求2所述的方法，其中，所述第一视频文件为利用从第二视频文件中选取的片段组成的视频文件；所述第一视频文件的弹幕文本包括：多个用户在所述第二视频文件播放过程中，在播放所述第一视频文件中的所述片段的时刻发送的弹幕文本。 4.根据权利要求1至3中任一所述的方法，其中，所述从所述多个可选文本信息中确定中心文本信息，包括：将所述各个可选文本信息分别转换为对应的文本向量；针对各个所述文本向量，分别确定每个文本向量与其他各个文本向量之间的距离之和；将所述距离之和最小的文本向量对应的可选文本信息确定为所述中心文本信息。 5.根据权利要求4所述的方法，其中，确定文本向量与其他文本向量之间的距离的方式包括：计算所述文本向量与所述其他文本向量之间的夹角余弦，将所述夹角余弦作为所述文本向量与所述其他文本向量之间的距离；或者，计算所述文本向量与所述其他文本向量之间的欧氏距离，将所述欧氏距离作为所述文本向量与所述其他文本向量之间的距离。 6.根据权利要求4或5所述的方法，其中，将所述可选文本信息转换为对应的文本向量，包括：采用基于转换器的双向编码器表示BERT模型和使用信息实体的增强语言表示ERNIE模型中的至少一种，将所述可选文本信息转换为对应的文本向量。 7.根据权利要求1至3中任一所述的方法，其中，所述从所述多个可选文本信息中确定中心文本信息，包括：将所述各个可选文本信息分别进行分词处理，得到多个分词，并统计各个分词在所有所述可选文本信息中出现的次数；从所述多个分词中选取出现次数最多的L个分词，作为重要分词，并根据所述重要分词出现的次数为所述重要分词设定分词分值；所述 L为正整数；针对所述多个可选文本信息中的各个可选文本信息，确定所述可选文本信息中包含的重要分词，并根据重要分词的分词分值确定所述可选文本信息的文本分值；将所述文本分值最高的可选文本信息作为所述中心文本信息。 8.一种视频标题生成装置，包括：获取模块，用于获取针对第一视频文件的多个可选文本信息；确定模块，用于从所述多个可选文本信息中确定中心文本信息，所述中心文本信息为权　利　要　求　书 1/3 页 2 CN 114357989 A 2与所述第一视频文件的内容的相似度最高的可选文本信息；标题模块，用于将所述中心文本信息确定为所述第一视频文件的标题。 9.根据权利要求8所述的装置，其中，所述可选文本信息包括所述第一视频文件的弹幕文本、评论、字幕和介绍文本中的至少一项。 10.根据权利要求9所述的装置，其中，所述第一视频文件为利用从第二视频文件中选取的片段组成的视频文件；所述第一视频文件的弹幕文本包括：多个用户在所述第二视频文件播放过程中，在播放所述第一视频文件中的所述片段的时刻发送的弹幕文本。 11.根据权利要求8至10中任一所述的装置，其中，所述确定模块，包括：转换子模块，用于将所述各个可选文本信息分别转换为对应的文本向量；距离子模块，用于针对各个所述文本向量，分别确定每个文本向量与其他各个文本向量之间的距离之和；第一确定子模块，用于将所述距离之和最小的文本向量对应的可选文本信息确定为所述中心文本信息。 12.根据权利要求11所述的装置，其中，确定文本向量与其他文本向量之间的距离的方式包括：计算所述文本向量与所述其他文本向量之间的夹角余弦，将所述夹角余弦作为所述文本向量与所述其他文本向量之间的距离；或者，计算所述文本向量与所述其他文本向量之间的欧氏距离，将所述欧氏距离作为所述文本向量与所述其他文本向量之间的距离。 13.根据权利要求1 1或12所述的装置，其中，所述转换子模块，包括：采用基于转换器的双向编码器表示BERT模型和使用信息实体的增强语言表示ERNIE模型中的至少一种，将所述可选文本信息转换为对应的文本向量。 14.根据权利要求8至10中任一所述的装置，其中，所述确定模块，包括：统计子模块，用于将所述各个可选文本信息分别进行分词处理，得到多个分词，并统计各个分词在所有所述可选文本信息中出现的次数；分值子模块，用于从所述多个分词中选取出现次数最多的L个分词，作为重要分词，并根据所述重要分词出现的次数为所述重要分词设定分词分值；所述 L为正整数；第二确定子模块，用于针对所述多个可选文本信息中的各个可选文本信息，确定所述可选文本信息中包含的重要分词，并根据重要分词的分词分值确定所述可选文本信息的文本分值；中心信息子模块，用于将所述文本分值最高的可选文本信息作为所述中心文本信息。 15.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1 ‑7中任一项所述的方法。 16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1 ‑7中任一项所述的方法。权　利　要　求　书 2/3 页 3 CN 114357989 A 3

专利 视频标题生成方法、装置、电子设备及存储介质

专利视频标题生成方法、装置、电子设备及存储介质