专利 一种基于模板的多模态命名实体识别方法及相关设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210041501.9 (22)申请日 2022.01.14 (71)申请人哈尔滨工业大学（深圳）地址 518055 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区 (72)发明人汤步洲　张号逵　赵晓雨　 (74)专利代理机构深圳市君胜知识产权代理事务所(普通合伙) 44268 专利代理师陈专 (51)Int.Cl. G06F 40/186(2020.01) G06F 40/242(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06V 30/40(2022.01)G06V 30/18(2022.01) G06V 30/19(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于模板的多模态命名实体识别方法及相关设备 (57)摘要本发明公开了一种基于模板的多模态命名实体识别方法及相关设备。本发明提供的基于模板的多模态命名实体识别方法，将命名实体识别问题转换为文本生成问题，通过语义学习的方式使得神经网络模型能够学习到多模态数据的语义与实体类型的语义相似性，提升命名实体识别的准确性。权利要求书3页说明书13页附图3页 CN 114548067 A 2022.05.27 CN 114548067 A 1.一种基于模板的多模态命名实体识别方法，其特征在于，所述方法包括：获取待识别数据，所述待识别数据中包括待识别文本和所述待识别文本对应的待识别图像，将所述待识别文本和所述待识别图像输入至预先训练的神经网络模型，所述神经网络模型中包括第一文本特征提取模块、视觉特征提取模块、特征融合模块、目标编码模块和目标解码模块；将所述待识别文本输入至所述第一文本特征提取模块，通过所述文本特征提取模块获取所述输入文本序列的第一文本特征，将所述第一文本特征和所述待识别图像输入至所述视觉特征提取模块，获取所述待识别图像的视觉特征；基于所述待识别文本生成多个候选文本，其中，所述候选文本的格式与预设模板一致，所述预设模板中包括实体片段、和实体片段对应的实体类型的语义文本；将所述视觉特征和所述第一文本特征输入至所述特征融合模块，获取多模态融合特征，将所述多模态融合特征和当前的输入文本序列输入至目标编码模块进行编码，将所述目标编码模块的输出输入至所述目标解码模块，基于所述目标解码模块的输出获取预测词，将所述预测词与当前的所述输入文本序列组合，生成新的所述输入文本序列，重复执行将所述多模态融合特征和当前的输入文本序列输入至所述目标解码模块进行编码的步骤，直至生成预设结束字符或者生成的所述预测词的总长度达到预设长度，将生成的所述预测词组合得到所述候选文本对应的预测文本，其中，所述输入文本序列的初始值为所述候选文本；基于所述候选文本对应的所述预测文本对所述候选文本进行评价，基于每条所述候选文本对应的评价结果在所述多个候选文本中确定至少一个目标候选文本，根据所述目标候选文本对所述待识别文本进行命名实体标注；其中，所述神经网络模型是基于多组训练数据训练完成的，每组训练数据中包括样本待识别数据和样本待识别数据对应的样本命名实体识别结果，每个所述样本命名实体识别结果中包括至少一条样本文本，每条样本文本的格式与所述预设模板一致。 2.根据权利要求1所述的基于模板的多模态命名实体识别方法，其特征在于，所述将所述第一文本特征和所述待识别图像输入至所述视觉特征提取模块，获取所述待识别图像的视觉特征，包括：在所述视觉特征提取模块中，采用以下公式计算得到所述待识别图像的视觉特征在考虑文本影响下的注意力分数：其中， Sintra表示所述待识别图像的视觉特征在考虑文本影响下的注意力分数，表示所述第一文本特征，表示从所述待识别图像提取的初始特征， Kintra、 Kinter为所述视觉特征提取模块的参数；根据所述待识别图像的视觉特征在考虑文本影响下的注意力分数、和所述待识别图像的所述初始特征获取所述待识别图像的视觉特征。 3.根据权利要求1所述的基于模板的多模态命名实体识别方法，其特征在于，所述目标编码模块中包括至少一个多头注意力机制层，所述将所述多模态融合特征和当前的输入文权　利　要　求　书 1/3 页 2 CN 114548067 A 2本序列输入至目标编码模块进行编码，包括：将所述候选文本输入至第二文本特征提取模块，提取所述候选文本对应的第二文本特征；将所述第二文本特征作为注意力机制中的查询向量，将所述视觉特征作为注意力机制中的键向量和值向量，执行注意力机制进行编码。 4.根据权利要求1所述的基于模板的多模态命名实体识别方法，其特征在于，所述神经网络模型中还包括全连接层，所述基于所述目标解码模块的输出获取预测词，包括：通过所述全连接层将所述目标解码模块的输出映射到词典维度向量，得到预测词。 5.根据权利要求4所述的基于模板的多模态命名实体识别方法，其特征在于，所述基于所述候选文本对应的所述预测文本对所述候选文本进行评价，包括：基于第一预设公式计算所述候选文本的评价结果；所述第一预设公式为： p(tc|t1:c‑1,X)＝softmax(ZlW+b)；其中， f表示所述候选文本的评价结果， p(tc|t1:c‑1,X)表示根据所述待识别文本X和所述候选文本对应的预测文本中的前c ‑1个词t1:c‑1生成所述预测文本中的第c个词tc的概率， Zl表示生成所述预测文本中的第c个词时所述目标解码模块的输出， m为所述预测文本中词的数量， W、 b为所述全连接层的参数。 6.根据权利要求1所述的基于模板的多模态命名实体识别方法，其特征在于，所述神经网络模型的训练过程为：基于样本待识别数据中的样本待识别文本、样本待识别图像和对应的样本文本，通过所述神经网络模型获取所述样本文本对应的所述预测文本；基于所述样本文本对应的所述预测文本，采用交叉熵计算所述样本文本对应的训练损失；基于所述样本文本对应的训练损失对所述神经网络的参数进行更新；重新选择样本待识别文本、样本待识别图像和对应的样本文本，执行基于样本待识别数据中的样本待识别文本、样本待识别图像和对应的样本文本，通过所述神经网络模型获取所述样本文本对应的所述预测文本的步骤，直至所述神经网络模型的参数达到收敛。 7.根据权利要求1所述的基于模板的多模态命名实体识别方法，其特征在于，所述神经网络模型的初始参数为经过预训练的语言模型参数。 8.一种基于模板的多模态命名实体识别装置，其特征在于，包括：数据获取模块，所述数据获取模块用于获取待识别数据，所述待识别数据中包括待识别文本和所述待识别文本对应的待识别图像，将所述待识别文本和所述待识别图像输入至预先训练的神经网络模型，所述神经网络模型中包括第一文本特征提取模块、视觉特征提取模块、特征融合模块、目标编码模块和目标解码模块；文本特征提取模块，所述文本特征提取模块用于将所述待识别文本输入至所述第一文本特征提取模块，通过所述文本特征提取模块获取所述输入文本序列的第一文本特征，将所述第一文本特征和所述待识别图像输入至所述视觉特征提取模块，获取所述待识别图像权　利　要　求　书 2/3 页 3 CN 114548067 A 3

专利 一种基于模板的多模态命名实体识别方法及相关设备

专利一种基于模板的多模态命名实体识别方法及相关设备