专利 基于多模态的图像标注方法、装置及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211034098.3 (22)申请日 2022.08.26 (71)申请人北京达佳互联信息技术有限公司地址 100085 北京市海淀区上地西路6号1 幢1层101D1-7 (72)发明人张恒　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师孟洋 (51)Int.Cl. G06V 10/74(2022.01) G06V 10/82(2022.01) G06V 10/774(2022.01) G06V 20/70(2022.01) G06V 20/40(2022.01)G06V 30/19(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于多模态的图像标注方法、装置及电子设备 (57)摘要本公开提供了一种基于多模态的图像标注方法、装置及电子设备，涉及图像处理技术领域。具体步骤为：获取待标注图像和图片类型，根据所述图片类型生成至少两个待定标注文本；将所述待标注图像和各所述待定标注文本输入预先训练的图像标注模型，通过所述图像标注模型提取所述待标注图像的图像特征向量，以及所述待定标注文本对应的文本特征向量；获取所述图像特征向量和各所述文本特征向量之间的相似度，根据所述相似度从各所述待定标注文本中确定目标标注文本；根据所述目标标注文本，标注所述待标注图像。本公开通过提取图像特征向量和文本特征向量，根据相似度确定目标标注文本，实现了对图像的自动标注，提高了图像标注的效率和准确度。权利要求书3页说明书13页附图7页 CN 115424044 A 2022.12.02 CN 115424044 A 1.一种基于多模态的图像标注方法，其特征在于，包括：获取待标注图像和图片类型，根据所述图片类型生成至少两个待定标注文本；将所述待标注图像和各所述待定标注文本输入预先训练的图像标注模型，通过所述图像标注模型提取所述待标注图像的图像特征向量，以及所述待定标注文本对应的文本特征向量；获取所述图像特征向量和各所述文本特征向量之间的相似度，根据所述相似度从各所述待定标注文本中确定目标标注文本；根据所述目标标注文本，标注所述待标注图像。 2.根据权利要求1所述的方法，其特征在于，所述图像标注模型包括图像编码器和文本编码器，所述通过所述图像标注模型提取所述待标注图像的图像特征向量和所述待定标注文本对应的文本特征向量，包括：将所述待标注图像输入所述图像编码器，通过所述图像编码器提取所述图像特征向量；将所述待定标注文本输入所述文本编码器，通过所述文本编码器提取所述文本特征向量。 3.根据权利要求2所述的方法，其特征在于，所述获取所述图像特征向量和各所述文本特征向量之间的相似度步骤具体包括以下任意一项：计算所述图像特征向量和所述文本特征向量之间的余弦相似度，作为所述相似度；计算所述图像特征向量和所述文本特征向量之间的曼哈顿距离，作为所述相似度；计算所述图像特征向量和所述文本特征向量之间的欧氏距离，作为所述相似度。 4.根据权利要求3所述的方法，其特征在于，所述根据所述相似度从各所述待定标注文本中确定目标标注文本的步骤具体包括：如果所述相似度大于预设的相似度阈值，则确定所述相似度对应的待定标注文本为所述目标标注文本。 5.根据权利要求1所述的方法，其特征在于，所述根据所述目标标注文本，标注所述待标注图像的步骤具体包括：将所述目标标注文本确定为所述待标注图像的标注文本。 6.一种图像标注模型的训练方法，其特征在于，包括：对图像训练数据和文本训练数据进行配对，得到训练数据对，根据所述训练数据对生成训练数据集；选取至少两个训练数据对组成数据批，将所述数据批输入图像标注模型，其中，所述数据批中包括一个正例训练数据对和至少一个负例训练数据对；根据所述图像标注模型提取所述数据批中正例训练数据对的图像训练数据和文本训练数据的特征，以生成第一图像特征向量和第一文本特征向量，并根据所述图像标注模型提取所述数据批中负例训练数据对的图像训练数据和文本训练数据的特征，以生成第二图像特征向量和第二文本特征向量；根据所述第一图像特征向量和第二图像特征向量组成图像特征队列，并根据所述第一文本特征向量和第二文本特征向量组成文本特征队列；计算所述第一图像特征向量和文本特征队列中各个文本特征向量之间的第一相似度，权　利　要　求　书 1/3 页 2 CN 115424044 A 2计算第一文本特征向量和图像特征队列中各个图像特征向量之间的第二相似度；根据所述第一相似度和第二相似度计算损失函数值，以所述损失函数收敛为目标，训练所述图像标注模型，得到训练完成的图像标注模型。 7.根据权利要求6所述的方法，其特征在于，所述图像训练数据和文本训练数据的获取步骤包括：获取原始视频数据中的视频帧，并对所述视频帧进行预处理，以生成第一图像数据；获取所述原始视频数据中的文本，并对所述文本进行预处理，以生成所述第一图像数据对应的第一文本数据，将所述第一图像数据和对应的第一文本数据组成原始数据对；对所述第一图像数据和所述第一文本数据进行数据增强，以生成所述图像训练数据和所述文本训练数据。 8.根据权利要求7所述的方法，其特征在于，所述对所述第一图像数据和所述第一文本数据进行数据增强以生成所述图像训练数据和所述文本训练数据步骤包括：对所述第一图像数据进行以下至少一项变换以生成所述图像训练数据：旋转变换，翻转变换，缩放变换，平移变换，尺度变换，噪声扰动，颜色变换或遮挡；对所述第一文本数据进行以下至少一项变换以生成所述文本训练数据：近义词替换，近义字随机置换，中文等价字替换，翻译互转或倒装句式变换。 9.根据权利要求6所述的方法，其特征在于，所述根据所述第一相似度和第二相似度计算损失函数值，以所述损失函数收敛为目标训练所述图像标注模型，包括：计算所述正例训练数据对的图像训练数据和所述正例训练数据对的文本训练数据之间的参考相似度；以所述参考相似度大于或等于所有的第一相似度和第二相似度为目标设置损失函数。 10.一种基于多模态的图像标注装置，其特征在于，包括：待定标注文本获取模块，用于获取待标注图像和图片类型，根据所述图片类型生成至少两个待定标注文本；特征提取模块，用于将所述待标注图像和各所述待定标注文本输入预先训练的图像标注模型，通过所述图像标注模型提取所述待标注图像的图像特征向量，以及所述待定标注文本对应的文本特征向量；目标标注文本确定模块，用于获取所述图像特征向量和各所述文本特征向量之间的相似度，根据所述相似度从各所述待定标注文本中确定目标标注文本；标注模块，用于根据所述目标标注文本，标注所述待标注图像。 11.一种图像标注模型的训装置，其特征在于，包括：数据采集模块，用于对图像训练数据和文本训练数据进行配对，得到训练数据对，根据所述训练数据对生成训练数据集；数据输入模块，用于选取至少两个训练数据对组成数据批，将所述数据批输入图像标注模型，其中，所述数据批中包括一个正例训练数据对和至少一个负例训练数据对；特征提取模块，用于根据所述图像标注模型提取所述数据批中正例训练数据对的图像训练数据和文本训练数据的特征，以生成第一图像特征向量和第一文本特征向量，并根据所述图像标注模型提取所述数据批中负例训练数据对的图像训练数据和文本训练数据的特征，以生成第二图像特征向量和第二文本特征向量；权　利　要　求　书 2/3 页 3 CN 115424044 A 3

专利 基于多模态的图像标注方法、装置及电子设备

专利基于多模态的图像标注方法、装置及电子设备