(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210049042.9
(22)申请日 2022.01.17
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518057 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 冯鑫
(74)专利代理 机构 华进联合专利商标代理有限
公司 44224
代理人 黄晶晶
(51)Int.Cl.
H04N 5/265(2006.01)
G06F 40/30(2020.01)
(54)发明名称
视频生成方法、 装置、 计算机设备和存储介
质
(57)摘要
本申请涉及一种视频生成方法、 装置、 计算
机设备和存储介质。 该方法涉及网络媒体领域和
人工智能技术领域, 包括: 获取目标对象的内容
描述文本, 内容描述文本是对目标对象所表达的
内容进行描述的信息, 内容描述文本包括多个子
文本, 对于每个子文本, 对子文本进行语义特征
提取, 得到子文本的文本语义特征, 获取从图片
库的多个候选图片中分别提取的图片内容特征,
针对每个子文本, 基于子文本的文本语义特征与
获取的各图片内容特征之间的匹配度, 从多个候
选图片中确定与子文本相匹配的目标图片, 结合
各目标图片相 匹配的子文本对各目标图片进行
视频转换, 生成目标对象的推荐视频。 采用本方
法能够提高处 理多媒体数据的效率。
权利要求书3页 说明书24页 附图10页
CN 114390218 A
2022.04.22
CN 114390218 A
1.一种视频生成方法, 其特 征在于, 所述方法包括:
获取目标对象的内容描述文本; 所述内容描述文本是对所述目标对象所表达的内容进
行描述的信息; 所述内容描述文本包括多个子文本;
对于每个所述子文本, 对所述子文本进行语义特征提取, 得到所述子文本的文本语义
特征;
获取从图片库的多个候选图片中分别提取的图片内容特 征;
针对每个所述子文本, 基于所述子文本的文本语义特征与获取的各所述图片内容特征
之间的匹配度, 从所述多个候选图片中确定与所述子文本相匹配的目标图片;
结合各所述目标图片相匹配的子文本对各所述目标图片进行视频转换, 生成所述目标
对象的推荐视频; 所述推荐视频在播放时将所述目标图片和相匹配的子文本进行对应展
示。
2.根据权利要求1所述的方法, 其特征在于, 所述结合各所述目标图片相匹配的子文本
对各所述 目标图片进行视频转换, 生成所述 目标对象的推荐视频; 所述推荐视频在播放时
将所述目标图片和相匹配的子文本进行对应展示包括:
对于每个所述子文本, 基于所述子文本相匹配的目标图片确定所述子文本对应的目标
视频帧;
将所述子文本 叠加到对应的所述目标视频帧中, 得到待编码视频帧;
对各个所述待编码视频帧进行视频编码, 生成所述子文本对应的视频片段;
按照所述子文本在所述内容描述文本 中的排序, 对各个所述子文本对应的视频片段进
行拼接, 生成所述目标对象的推荐视频; 所述推荐视频在播放时, 将所述子文本与所述子文
本对应的视频片段对应展示。
3.根据权利要求2所述的方法, 其特征在于, 所述子文本有多个相匹配的目标图片; 所
述对于每个所述子文本, 基于所述子文本相匹配的目标图片确定所述子文本对应的目标视
频帧包括:
对于所述子文本相匹配的多个目标图片, 按照所述多个目标图片的图片内容特征与 所
述子文本的文本语义特征之间的匹配度, 对所述多个目标图片进行排列, 得到目标图片序
列;
基于所述目标图片序列确定所述子文本对应的视频帧序列; 所述视频帧序列中包括多
个所述目标视频帧;
所述将所述子文本 叠加到对应的所述目标视频帧中, 得到待编码视频帧包括:
将所述子文本分别叠加到对应的视频帧序列中的每个目标视频帧中, 得到待编码视频
帧序列; 所述待编码视频帧序列中包括多个所述待编码视频帧。
4.根据权利要求1所述的方法, 其特征在于, 所述结合各所述目标图片相匹配的子文本
对各所述 目标图片进行视频转换, 生成所述 目标对象的推荐视频; 所述推荐视频在播放时
将所述目标图片和相匹配的子文本进行对应展示包括:
按照各所述子文本在所述内容描述文本 中的排序, 确定各所述子文本相匹配的目标图
片分别对应的播 放时间;
针对每个目标图片对应的播放 时间, 将所述目标图片相匹配的子文本与所述播放 时间
之间建立对应关系;权 利 要 求 书 1/3 页
2
CN 114390218 A
2将各所述目标图片按照相应的播放 时间进行视频转换, 以生成所述目标对象的推荐视
频; 所述推荐视频在播放时, 将对应于同一播放时间的所述 目标图片和所述子文本进行对
应展示。
5.根据权利要求1所述的方法, 其特征在于, 所述结合各所述目标图片相匹配的子文本
对各所述 目标图片进行视频转换, 生成所述 目标对象的推荐视频; 所述推荐视频在播放时
将所述目标图片和相匹配的子文本进行对应展示包括:
获取目标音频;
结合各所述目标图片相匹配的子文本以及所述目标音频对各所述目标图片进行视频
编码, 得到编码视频;
将所述编码视频与所述目标音频进行合并, 生成所述目标对象的推荐视频; 所述推荐
视频在播放时将所述目标图片和相匹配的子文本进行对应展示, 并同步播放所述目标音
频。
6.根据权利要求5所述的方法, 其特 征在于, 所述获取目标音频包括:
获取候选音频集 合, 确定所述 候选音频集 合中的各个候选音频的音频风格;
确定所述子文本的文本风格以及所述目标图片的图片风格;
基于所述音频风格与 所述文本风格之间的相似度、 以及所述音频风格与所述图片风格
之间的相似度, 从所述 候选音频集 合中筛选得到目标音频。
7.根据权利要求6所述的方法, 其特 征在于, 所述获取目标音频包括:
将所述内容描述文本进行语音转换, 得到所述内容描述文本对应的语音数据;
将所述内容描述文本对应的语音数据, 确定为所述目标音频。
8.根据权利要求1所述的方法, 其特征在于, 所述针对每个所述子文本, 基于所述子文
本的文本语义特征与获取的各所述图片内容特征之 间的匹配度, 从所述多个候选图片中确
定与所述子文本相匹配的目标图片包括:
针对每个所述子文本, 计算所述子文本的文本语义特征分别与每个所述图片内容特征
之间的匹配度, 得到所述子文本对应的各个特 征匹配度;
基于所述子文本对应的各个特征匹配度, 从各个所述图片内容特征中过滤掉所述特征
匹配度小于匹配度阈值的图片内容特征, 将剩余的各个所述图片内容特征确定为第一图片
内容特征;
从各个所述第 一图片内容特征对应的候选图片中, 确定与所述子文本相匹配的目标图
片。
9.根据权利要求8所述的方法, 其特征在于, 所述从各个所述第 一图片内容特征对应的
候选图片中, 确定与所述子文本相匹配的目标图片包括:
确定所述子文本的邻 近子文本; 所述子文本与 所述邻近子文本在所述内容描述文本中
相邻;
计算所述子文本的文本语义特征与 所述邻近子文本的文本语义特征之间的差异, 得到
特征差异信息;
计算所述第 一图片内容特征与所述特征差异信 息之间的相似度, 将相似度大于相似度
阈值的所述第一图片内容特 征对应的候选图片, 确定为与所述子文本相匹配的目标图片。
10.根据权利要求1所述的方法, 其特征在于, 所述对所述子文本进行语义特征提取, 得权 利 要 求 书 2/3 页
3
CN 114390218 A
3
专利 视频生成方法、装置、计算机设备和存储介质
文档预览
中文文档
38 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共38页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:53上传分享