专利 一种图像生成方法、装置、存储介质及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210138243.6 (22)申请日 2022.02.15 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人肖鑫雨　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师杜维 (51)Int.Cl. G06T 11/60(2006.01) G06T 7/11(2017.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06V 10/764(2022.01) (54)发明名称一种图像生成方法、装置、存储介质及设备 (57)摘要本申请实施例公开了一种图像生成方法、装置、存储介质及设备，本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等场景。方法包括：获取文本集合和目标图像；目标图像包括主体对象；响应于针对文本集合和目标图像的创作生成操作，从文本集合中确定与目标图像相匹配的目标文本；获取目标图像中的非视觉显著区域，根据非视觉显著区域，在目标图像中确定用于添加目标文本的创作文本区域，将目标文本添加至目标图像中的创作文本区域中，得到创作图像。通过本申请，可以提高创作图像的生成效率，且丰富创作图像的显示效果。权利要求书4页说明书29页附图15页 CN 114529635 A 2022.05.24 CN 114529635 A 1.一种图像生成方法，其特征在于，包括：获取文本集合和目标图像；所述目标图像包括主体对象；响应于针对所述文本集合和所述目标图像的创作生成操作，从所述文本集合中确定与所述目标图像相匹配的目标文本；获取所述目标图像中的非视觉显著区域，根据所述非视觉显著区域，在所述目标图像中确定用于添加所述目标文本的创作文本区域；所述非视觉显著区域为所述目标图像中不包括所述主体对象的关键部位的区域；将所述目标文本添加至所述目标图像中的创作文本区域中，得到创作图像。 2.根据权利要求1所述的方法，其特征在于，所述文本集合包括N个文本，所述N个文本包括所述目标文本； N为正整数；所述从所述文本集合中确定与所述目标图像相匹配的目标文本，包括：调用文本语义识别模型，分别对所述N个文本进行语义识别，得到每个文本对应的文本语义；调用图像语义识别模型，对所述目标图像进行语义识别，得到所述目标图像对应的图像语义；确定所述每个文本对应的文本语义分别与所述图像语义之间的图文匹配度；将所述文本集合中，具有最大图文匹配度的文本，确定与所述目标图像相匹配的目标文本。 3.根据权利要求2所述的方法，其特征在于，所述调用文本语义识别模型，分别对所述N 个文本进行语义识别，得到每个文本对应的文本语义，包括：调用所述文本语义识别模型中的嵌入层，分别对所述N个文本进行嵌入向量转换，得到每个文本对应的文本嵌入向量；调用所述文本语义识别模型中的自注意力特征提取层，基于所述每个文本的上下文信息和文本嵌入向量，对所述每个文本进行自注意力特征提取，得到所述每个文本对应的自注意力特征向量；调用所述文本语义识别模型中的语义分类层，对所述每个文本对应的自注意力特征向量进行语义分类，得到所述每个文本对应的文本语义。 4.根据权利要求2所述的方法，其特征在于，所述方法还包括：获取通用文本样本，采用所述通用文本样本对初始文本语义识别模型进行迭代训练，得到第一候选文本语义识别模型；获取用于表征对象意图的意图文本样本，采用所述意图文本样本对所述第一候选文本语义识别模型进行迭代训练，得到第二候选文本语义识别模型；获取创作图像样本，从所述创作图像样本中获取创作文本样本，采用所述创作文本样本对所述第二候选文本语义识别模型进行迭代训练，得到所述文本语义识别模型。 5.根据权利要求1所述的方法，其特征在于，所述获取所述目标图像中的非视觉显著区域，包括：调用显著区域预测模型，通过所述显著区域预测模型中的区域分割层，对所述目标图像进行区域分割，得到 M个候选区域； M为正整数；通过所述显著区域预测模型中的特征提取层，分别对所述M个候选区域进行特征提取，权　利　要　求　书 1/4 页 2 CN 114529635 A 2得到每个候选区域中的主体对象的对象信息；通过所述显著区域预测模型中的分类层，对所述M个候选区域进行分类处理，得到M个候选区域分别对应的区域内容类型；根据所述对象信息和所述区域内容类型，从所述M个候选区域中确定所述目标图像中的视觉显著区域；所述视觉显著区域为所述主体对象的关键部位所在区域；将所述目标图像中除所述视觉显著区域之外的区域，确定为所述目标图像中的非视觉显著区域。 6.根据权利要求5所述的方法，其特征在于，所述根据所述对象信息和所述区域内容类型，从所述M个候选区域中确定所述目标图像中的视觉显著区域，包括：通过所述显著区域预测模型中的级联层，对所述每个候选区域的对象信息和区域内容类型进行合并处理，得到所述每个候选区域的合并区域特征；根据所述每个候选区域的合并区域特征，对所述每个候选区域进行影响度预测，得到所述每个候选区域的区域影响度；将所述M个候选区域中，区域影响度大于或者等于目标阈值的候选区域，确定为所述目标图像中的视觉显著区域。 7.根据权利要求1所述的方法，其特征在于，所述根据所述非视觉显著区域，在所述目标图像中确定用于添加所述目标文本的创作文本区域，包括：获取所述目标文本的文本尺寸信息；根据所述文本尺寸信息以及所述非视觉显著区域，在所述目标图像中确定用于添加所述目标文本的创作文本区域。 8.根据权利要求7所述的方法，其特征在于，所述根据所述文本尺寸信息以及所述非视觉显著区域，在所述目标图像中确定用于添加所述目标文本的创作文本区域，包括：对所述目标图像中所述非视觉显著区域进行区域划分，得到Q个候选创作文本区域； Q 为正整数；获取每个候选创作文本区域分别对应的区域尺寸信息；分别获取所述文本尺寸信息，与所述每个候选创作文本区域对应的区域尺寸信息之间的尺寸匹配度；根据所述尺寸匹配度，在所述Q个候选创作文本区域中选择L个尺寸匹配创作文本区域； L为小于或等于Q的正整数；在L个尺寸匹配创作文本区域中确定所述目标图像中的创作文本区域。 9.根据权利要求8所述的方法，其特征在于，所述在L个尺寸匹配创作文本区域中确定所述目标图像中的创作文本区域，包括：若L为1，则将所述尺寸匹配创作文本区域确定为所述目标图像中的创作文本区域；所述尺寸匹配创作文本区域具有最大尺寸匹配度；若L大于1，则获取L个尺寸匹配创作文本区域分别在所述目标图像中的区域显示位置，根据所述区域显示位置确定每个尺寸匹配创作文本区域对应的区域显著度；将所述L个尺寸匹配创作文本区域中，具有最大区域显著度的尺寸匹配创作文本区域确定为所述目标图像中的创作文本区域。 10.一种图像生成方法，其特征在于，包括：权　利　要　求　书 2/4 页 3 CN 114529635 A 3

专利 一种图像生成方法、装置、存储介质及设备

专利一种图像生成方法、装置、存储介质及设备